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从 网 格 、 集 群 到 下 一 代 游 戏 平 台 ， 并 行 计 算 正 在 成 为 主流 。IBM、Intel、Oracle 公 司 的 超 线程 技术 、 
超 传输 技术 和 多 核 微 处 理 器 等 技术 创新 正在 夫 速 推动 并 行 计 算 的 发 展 s 万 事 俱 备 一 只 欠 东 风 一 一 满足 并 行 
软件 飞速 增长 需求 的 程序 员 。 

本 书 是 软件 开发 人 员 学 习 并 行 编程 的 权威 教程 ， 其 中 并 没有 过 多 讲解 理论 知识 ， 而 是 讨论 并 行程 序 员 
所 面临 的 挑战 及 其 解决 方案 ， 并 结合 当前 并 行 API 的 用 法 给 出 一 些 示例 。 书 中 引入 了 一 种 完整 的 、 通 俗 易 懂 
的 模式 语言 ， 可 以 帮助 任何 有 经 验 的 开发 人 员 编 写 高 效 的 并 行 代码 。 通 过 学 习 本 书 ， 读 者 将 意识 到 模式 是 
掌握 并 行 编程 的 最 佳 方式 s- 本 书 不 仅 适 用 于 高 等 院 校 计算 机 科学 相关 专业 的 学 生计 而 且 适 用 于 各 类 软件 开 
发 人 员 。 


本 书 主 要 内 容 包 括 : 
@ 理解 并 行 计算 和 并 行 开发 人 员 所 面临 的 挑战 。 
@- 找 出 软件 设计 中 的 并 发 问题 并 将 其 分 解 成 并 发 任务 5 
e 管理 不 同 任务 间 的 数据 使 用 。 
© 生成 一 种 可 以 有 效 利用 已 识别 的 并 发 性 的 算法 结构 。 
@ 将 算法 结构 同 需要 实现 的 API 相 连接 。 
e 实现 并 行程 序 的 特定 软件 结构 。 
€ 与 OQpenMP--MPI 和 Java 等 当今 主流 的 并 行 编程 环境 协同 王 作 é 
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文艺 复兴 以 来 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ; 也 正 是 这 样 的 优势 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 壁 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ,我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ;而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 
发 展 的 几 十 年 间 积 淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 
的 世界 一 流 大 学 的 必由之路 。 

机 械 工 业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 "。 目 1998 年 开始 ， 我 们 
就 将 工作 重点 放 在 了 入选 、 移 译 国 外 优秀 教材 上。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson， 
McGraw-Hill, Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 良 
好 的 合作 关系 ， 从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S.Tanenbaum, Bjarne Stroustrup, 
Brain W.Kernighan, Dennis Ritchie, Jim Gray, Afred V.Aho, John E.Hopcroft, Jeffrey D.Ullman, 
Abraham Silberschatz, William Stallings, Donald E.Knuth, John L.Hennessy, Larry L.Peterson 
等 大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 究 及 珍藏 。 
大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 相助 ， 国 内 的 专家 不 仅 提供 了 
中 肯 的 选 题 指导 ， 还 不 秤 劳 苗 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 
在 中 国 的 传播 ， 有 的 还 专门 为 其 书 的 中 译本 作 序 。 迄 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 两 
百 个 品种 ， 这 些 书 籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书籍 。 
其 影印 版 “经 典 原 版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 深 
化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 入 一 个 新 的 阶段 ,我们 的 目标 是 尽善尽美 ， 
而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公 司 欢 迎 老 师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指 正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 : www.hzbook.com 
电子 邮件 : hzjsj@hzbook.com 
联系 电话 : (010) 88379604 
联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 cone 
邮政 编码 :100037 华章 科技 图 书 出 版 中 心 
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随 着 多 核 / 众 核 处 理 器 的 普及 以 及 并 行 计算 集群 应 用 的 日 益 广 泛 ， 编 写 正 确 、 高 效 的 并 
行程 序 已 经 成 为 软件 开发 人 员 面 临 的 一 大 挑战 。 并 行程 序 可 以 归纳 为 一 些 具 有 明确 定义 的 编 
程 模式 一 一 用 以 描述 并 行 编程 的 形式 和 方法 ， 即 并 行 编 程 模式 。 每 一 种 模式 都 是 具有 相同 控 
制 结构 的 一 类 算法 。 并 行 模 式 的 选择 将 直接 影响 并 行程 序 的 正确 性 和 效率 ， 从 而 影响 整个 系 
统 的 性 能 。 因 此 ， 选 择 一 种 有 效 的 并 行 编程 模式 对 并 行程 序 的 编写 及 性 能 至 关 重 要 。 

本 书 从 寻找 并 发 性 、 算 法 结构 、 支 持 结构 和 实现 机 制 四 个 角度 深入 介绍 了 并 行 编程 模式 
的 分 类 、 定 义 、 实 现 、 选 择 及 应 用 。 本 书 提供 了 从 问题 描述 到 最 终 编 码 的 完整 解决 方案 。 首 
先 从 高 层次 的 算法 问题 出 发 ,介绍 重组 问题 以 开发 算法 的 潜在 并 行 性 的 策略 及 方法 ; 在 此 基 
础 上 ， 从 整体 上 讨论 了 如 何 利用 算法 的 潜在 并 行 性 构造 并 行 算法 ; 接着 从 并 行程 序 构造 方法 
和 共享 数据 结构 的 角度 描述 支持 并 行 算法 表达 的 软件 构造 ; 最 后 从 进程 /线程 管理 和 进程 / 线 
程 间 交互 两 个 方面 ， 给 出 将 上 层 空 间 的 模式 映射 到 特定 编程 环境 的 方法 。 本 书 不 仅 详 细 介 绍 
了 并 行程 序 设计 各 个 阶段 的 不 同 编程 模式 ， 讨 论 相 应 的 关键 技术 ， 还 详细 介绍 了 OpenMP, 
MPI, Java 这 三 种 目前 在 并 行 编程 社区 常用 的 编程 环境 。 此 外 ， 本 书 配 备 大 量 应 用 和 程序 实 
例 ， 方 便 读 者 掌握 相关 技巧 。 总 之 ， 本 书 作 者 根据 目 己 多 年 并 行 编程 的 实际 经 验 ， 从 并 行 算 
法 的 本 质 出 发 ， 以 一 种 职业 程序 员 易 于 擎 握 的 方式 对 最 为 关键 的 基本 知识 和 技术 进行 了 细致 
讲解 。 本 书 可 供 具 有 一 定 并 行 编程 经 验 的 软件 开发 人 员 参 考 ， 为 他 们 进行 并 行程 序 开发 提供 
指导 ， 从 而 降低 并 行 编程 的 难度 ， 提 高 并 行程 序 的 性 能 。 

本 书 作 者 Timothy G. Mattson, Beverly A. Sanders 和 Berna L. Massingill 从 1998 年 就 开始 了 
模式 语言 和 并 行 计算 设计 模式 的 相关 工作 ， 都 具有 丰富 的 并 行 编程 经 验 。Timothy G. Mattson 
在 加 州 理 工学 院 时 ， 就 将 自己 的 分 子 散射 软件 移植 到 Caltech JPL 超 立 方 体 上 。 此 外 ，Mattson 
还 参与 了 许多 重要 的 并 行 计算 项 目 ， 包 括 ASCI Red WA (第 一 个 万 亿 次 浮 点 运算 大 规模 并 行 
处 理 计算 机 )、OpenMP 开发 以 及 OSCAR (一 种 流行 的 集群 计算 包 )。 目 前 ， 他 负责 英特尔 生 
命 科 学 市 场 的 战略 决策 ， 是 英特尔 生命 科学 的 首席 发 言 人 。 

由 于 时 间 人 仓促， 加 之 书 中 个 别 术 语 目前 没有 统一 译 法 ， 因 此 我 们 对 一 些 术语 采取 了 保留 
其 英文 名 称 的 方法 。 书 中 翻译 的 错误 和 不 妥 之 处 ， 奶 请 广大 读者 不 音 批 评 指 正 。 
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“如 果 建 好 了 它 ， 他 们 就 会 到 来 ^ . 

我 们 已 建成 了 多 处 理 器 工作 站 、 大 规模 并 行 超级 计算 机 和 集群， 但 利用 这 些 机 器 编程 的 
程序 员 却 还 没有 出 现 。 少 数 乐 于 迎接 挑战 的 程序 员 已 经 证 明 ， 大 多 数 问题 可 以 利用 并 行 计 算 
机 快速 求解 ， 但 普通 程序 员 ， 特 别 是 那些 生活 安逸 的 职业 程序 员 ， 却 忽略 了 并 行 计算 机 。 

他 们 这 样 做 十 分 不 明智 ， 因 为 并 行 计 算 机 即将 成 为 主流 。 多 线程 微 处 理 器 、 多 核 CPU, 
多 处 理 器 PC、 集 群 、 并 行 游戏 控制 台 等 并 行 计算 机 正在 逐步 占领 整个 计算 市 场 ， 在 计算 机 行 
业 中 ， 市 场 上 到 处 是 这 样 的 硬件 ， 这 些 硬件 唯 有 借助 并 行程 序 才能 全 速 运行 。 但 谁 将 编写 并 
行程 序 呢 2 

这 是 一 个 老生 常 谈 的 问题 ， 甚 至 在 20 世纪 80 年 代 早 期 “killer micros” 开 始 取代 传统 向 
量 机 时 ， 我 们 就 十 分 担心 如 何 吸引 普通 程序 员 编写 并 行程 序 。 我 们 尝试 了 能 想到 的 所 有 方法 ， 
包括 高 级 硬件 抽象 、 隐 式 并 行 编程 语言 、 并 行 语 言 扩 展 和 可 移植 消息 传递 库 。 但 是 经 过 多 年 
的 努力 之 后 ,“ 他 们 ”并 没有 出 现 ， 绝 大 多 数 程序 员 并 没有 致力 于 编写 并 行 软件 。 

一 个 常见 的 观点 是 ， 你 不 能 将 新 技巧 告诉 老 程序 员 ， 因 此 直到 老 程 序 员 逐 渐 退 出 、 新 一 
” 代 程 序 员 逐渐 成 长 后 ， 并 行 编程 问题 才能 够 得 到 解决 。 

但 我 们 不 认同 这 种 悲观 主义 态度 。 多 年 来 ， 程 序 员 一 直 在 采用 新 的 软件 技术 方面 表现 出 
非凡 能 力 ， 许 多 使 用 Fortran 的 老 程序 员 现 在 正在 编写 完美 的 Java 面向 对 象 程 序 。 因 此 问题 
并 非 在 于 老 程 序 员 ， 而 在 于 并 行 计算 专家 如 何 培养 并 行程 序 员 。 

这 正 是 本 书 的 目标 ， 我 们 和 希望 把 握 优 秀 并 行程 序 员 思考 并 行 算 法 本 质 的 过 程 ， 并 以 一 种 
职业 程序 员 易 于 掌握 的 方式 讲解 。 为 此 ， 我 们 利用 模式 语言 来 介绍 并 行 编程 。 之 所 以 这 样 选 
择 ， 不 是 因为 要 利用 设计 模式 解决 新 领域 中 的 问题 ， 而 是 因为 模式 已 经 被 证 明 适 用 于 并 行 编 
程 。 例 如 ， 模 式 在 面 回 对 象 设计 领域 非常 有 效 ， 它 们 提供 了 一 种 用 于 讨论 设计 元 素 的 通用 语 
言 ， 并 且 能 够 有 效 地 帮助 程序 员 掌 握 面 向 对 象 的 设计 方法 。 

本 书包 含 并 行 编程 的 模式 语言 。 前 两 章 将 介绍 并 行 计算 的 一 些 基 础 知识 ， 包 括 并 行 计 算 
的 概念 和 术语 ， 而 不 是 详尽 介绍 整个 领域 。 

后 4 章 介绍 了 模式 语言 ， 对 应 于 创建 一 个 并 行程 序 的 4 个 阶段 。 

e 寻找 并 发 性 。 识 别 可 用 的 并 发 性 ， 并 用 于 算法 设计 中 。 

e 算法 结构 。 用 一 种 高 级 结构 组 织 一 个 并 行 算 法 。 

e 支持 结构 。 将 算法 转化 为 源 代 码 ， 考 虑 如 何 组 织 并 行程 序 以 及 如 何 管理 共享 数据 。 

e 实现 机 制 。 寻 找 特 定 的 软件 构造 ， 实 现 并 行程 序 。 

这 些 模式 紧密 相关 ， 构 成 了 4 个 设计 空间 。 从 顶部 ( 寻找 并 发 性 ) 开始 ， 依 次 经 历 每 一 
种 模式 ， 到 达 底 部 ( 实现 机 制 ) 时 ， 就 可 以 得 到 并 行程 序 的 一 个 详细 设计 。 

如 果 目 标 是 一 个 并 行程 序 ， 那 么 所 需要 的 除了 一 个 并 行 算法 之 外 ， 还 包括 编程 环境 和 用 

日 ”这 是 电影 《梦幻 之 地 》 中 的 对 话 。 影 片 中 无 法 完成 梦想 的 农场 主人 公 ， 有 一 天 听 到 神秘 声音 说 :“ 如 果 建 好 


了 它 ， 他 们 就 会 到 来 。” 于 是 他 铲 平 了 自己 的 玉米 田 建造 了 一 座 棒球 场 ， 最 终 他 的 棒球 偶像 真 的 来 到 这 里 打 
球 。 一 一 译 者 注 


VI 
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是 ， 随 着 时 间 的 推移 ， 并 行 编程 社区 目前 主要 使 用 三 种 编程 环境 。 
e OpenMP: 扩展 了 C、C++ 和 Fortran， 主 要 用 来 在 共享 内 存 计算 机 上 编写 并 行程 序 。 
e MPI: 用 于 集群 和 其 他 分 布 式 存储 计算 机 的 一 种 消息 传递 库 。 
e Java: 一 种 面 问 对 象 的 编程 语言 ， 支 持 共 享 内 存 计 算 机 上 的 并 行 编程 ， 并 支持 分 布 式 


计算 的 标准 类 库 。 
很 多 读者 可 能 熟悉 其 中 的 一 种 或 几 种 编程 语言 ， 但 为 了 方便 那些 并 行 计算 的 初学 者 ， 附 
录 简 要 介绍 了 这 几 种 编程 环境 。 


我 们 研究 模式 语言 多 年 ， 现 在 将 其 总 结 为 一 本 书 以 便 使 用 。 但 是 这 并 非 此 项 工作 的 终点 。 
我 们 期 望 读者 有 目 己 的 新 想法 ， 并 设计 更 好 的 并 行 编程 新 模式 。 我 们 可 能 遗漏 了 模式 语言 
菏 些 重要 特征 ,希望 并 行 计算 社区 能 推广 这 种 模式 语言 。 我 们 将 继续 更 新 并 改进 这 种 模式 语 
言 ， 直 到 它 成 为 并 行 计算 社区 的 统一 观点 。 我 们 将 开展 一 些 实际 的 工作 ， 例 如， 使 用 模式 语 
言 来 创建 更 好 的 并 行 编程 环境 ， 帮 助人 们 使 用 这 些 模式 来 编写 并 行 软件 。 我 们 将 一 直 努 力 ， 
直到 并 行 软件 全 面 代替 串 行 软件 的 那 一 天 。 
致谢 
我 们 从 1998 年 开始 研究 模式 语言 ， 从 如 何 设 计 并 行 算法 的 一 个 模糊 概念 开始 到 完成 本 
书 , 已 经 走 过 了 一 段 漫 长 而 崎 邮 的 道路 。 如 果 没 有 以 下 人 员 的 帮助 ， 我 们 不 可 能 完成 这 项 
任务 。 
Mani Chandy 将 Tim 介绍 给 Berverly 和 Berna， 并 坚信 我 们 能 成 为 一 个 优秀 团队 。 美 国 国 
家 科学 基金 、 英 特 尔 公 司 、 三 一 大 学 多 年 来 一 直 支 持 本 项 目的 研究 。 每 年 夏天 在 伊利 诺 伊 举 
办 的 PLOP 会 议 参 与 者 为 本 书 的 具体 并 行 编程 模式 提供 了 大 量 帮助 。 该 会 议 的 组 织 和 审 稿 过 
程 十 分 具有 挑战 性 , 但 没有 这 些 经 验 我 们 无 法 完成 模式 语言 的 研究 。 同 时 感谢 仔细 阅读 本 书 
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并 行 编程 的 模式 语言 





计算 机 被 广泛 用 于 模拟 自然 科学 、 医 学 和 工程 学 等 领域 中 的 真实 物理 系统 ， 包 括 天 气 预 
报 模拟 系统 、 震 撼 电 影 的 场景 模拟 系统 ， 并 且 可 以 使 用 任意 的 计算 能 力 来 完成 更 加 精细 的 模 
拟 。 无 论 是 顾客 购物 模式 ， 还 是 来 自 于 宇宙 的 遥测 数据 或 者 DNA 序列 ， 它 们 需要 分 析 的 数据 
量 都 十 分 巨大 。 为 了 提供 这 种 计算 能 力 ， 设 计 者 将 多 个 处 理 单元 融入 一 个 较 大 的 系统 中 。 这 
就 是 所 谓 的 并 行 计算 机 ， 它 能 够 同时 运行 多 个 任务 ， 在 更 短 的 时 间 内 解决 规模 更 大 的 问题 。 

过 去 ， 并 行 计 算 机 仅 用 于 解决 一 些 最 重要 的 问题 ， 但 是 从 20 世纪 90 年 代 中 期 开始 ， 随 
着 微 处 理 器 内 部 开始 支持 多 线程 技术 ， 并且 在 单个 硅 片 上 可 容纳 多 个 处 理 右 内 核 ， 这 种 情况 
已 经 发 生 了 根本 性 变化 。 现 在 ， 并 行 计 算 机 随处 可 见 ， 几 乎 每 所 大 学 计算 机 系 都 至 少 有 一 人 台 
并 行 计算 机 。 几 乎 所 有 的 石油 公司 、 汽 车 制造 商 、 药 品 开发 公司 和 特效 工作 室 都 已 经 使 用 了 
并 行 计 算 。 

例如 ， 计 算 机 动画 的 生成 过 程 是 将 动画 文件 的 信息 (如 光 、 纹 理 和 阴影 ) 应 用 于 3D 模 
型 以 生成 2D 图 像 ， 再 用 这 些 2D 图 像 组 成 电影 的 帧 。 为 较 长 的 电影 生成 所 需 的 帧 时 ( 每 秒 
24 i )， 并 行 计 算是 非常 必要 的 。1995 年 ， 由 Pixar 公司 发 行 的 《玩具 总 动员 》 是 第 一 个 完 
全 通过 计算 机 软件 制作 的 电影 ， 该 电影 由 一 台 包 括 100 个 双 处 理 器 机 融 的 名 为 “renderfarm” 
[PS00] 的 机 器 处 理 。Pixar 公司 在 1999 年 制作 《玩具 总 动员 2》 时 利用 了 一 台 具 有 1400 个 处 
理 器 的 系统 。 由 于 提高 了 处 理 能 力 ， 影 片 的 效果 (包括 纹理 、 服 饰 和 艺术 效果 ) 有 大 幅度 提 
升 。Monsters 公司 2001 年 使 用 了 一 个 拥有 250 个 企业 级 服务 器 。( 每 个 服务 器 包含 14 个 处 理 
器 ， 共 3500 PARIER ) 的 系统 。 然 而 利用 更 高 的 计算 性 能 ， 包 括 处 理 器 数目 以 及 单个 处 理 佑 
计算 性 能 ， 来 提升 动画 效果 ， 因 此 生成 一 幅 帧 需要 的 时 间 仍 保持 不 变 。 

生物 科学 在 能 够 从 多 种 生物 体 (包括 人 ) 中 获得 DNA 序列 信息 后 实现 了 跨越 式 的 发 展 。 
由 Celera 公司 提出 并 成 功 使 用 的 一 种 称 为 基因 组 乌 枪 的 排序 算法 ， 可 将 基因 组 划分 为 多 个 子 
段 ， 首 先 通过 实验 确定 每 个 子 段 的 DNA 序列 ， 然 后 利用 计算 机 通过 重 构 子 段 间 的 重 雪 区 域 来 
重组 整个 序列 。Celera 公司 排序 人 类 基因 组 时 使 用 的 计算 机 包括 150 台 四 路 服务 器 以 及 一 台 
具有 16 个 处 理 器 和 64GB 内 存 的 服务 器 ， 实 际 计算 包括 5 兆 亿 次 基 对 基 上 比较 [Ein00]。 

SETI@home M H [SET, ACK*02] 的 目的 是 寻找 地 外 智能 存在 的 证 据 ， 它 是 男 一 个 展 
示 并 行 计 算 能 力 的 实例 。 该 项 目 利 用 位 于 波多 黎 各 的 世界 上 最 大 的 阿 雷 卡 纳 特 无 线 望 远 镜 搜 
索 外 太空 ， 分 析 收 集 到 的 数据 ， 搜 索 智能 信号 源 。 该 项 目的 计算 需求 超过 了 世界 上 最 大 超级 
计算 机 的 性 能 ， 因 此 只 能 利用 公共 计算 资源 满足 性 能 需求 ， 即 将 通过 Internet 互联 的 世界 范 
围 内 的 PC 整合 为 一 台 并 行 计 算 机 。 项 目 将 收集 的 数据 划分 为 一 些 子 任务 ， 并 将 子 任务 通过 
Internet 发 送 到 每 个 客户 端 计 算 机 上 ， 利 用 这 些 分 布 的 个 人 计算 机 的 空闲 时 间 进 行 计 算 。 每 个 
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客户 端 定期 连接 到 SETI@home 服务 器 ， 下 载 数 据 并 执行 分 析 计算 ， 最 后 将 结果 发 送 回 服务 
器 。 客 户 端 程序 被 设计 为 一 个 屏幕 保护 程序 ， 仅 当 计算 机 处 于 空闲 状态 时 才 将 CPU 贡献 给 
SETI 问题 执行 计算 任务 。 目 前 ， 一 个 工作 子 任务 平均 需要 一 台 计 算 机 7 ~ 8 个 小 时 的 CPU 
时 间 ， 从 项 目 启动 到 现在 已 有 2.05 亿 个 工作 单元 得 以 处 理 。 最 近 ， 也 出 现 了 一 批 利 用 公共 计 
算 资 源 的 新 项 目 ， 并 且 一 些 大 公司 也 利用 其 内 部 个 人 计算 机 的 空闲 计时 解决 从 新 药 筛选 到 芯 
片 设计 验证 等 问题 。 

尽管 通过 并 行 计算 可 以 以 更 短 的 时 间 解 决 一 些 串 行 无 法 完成 的 问题 ， 但 实现 并 行 也 需 
要 付出 一 些 代 价 。 编 写 并 行 计 算 软 件 是 十 分 困难 的 ， 因 此 只 有 少量 程序 员 具 备 丰 富 的 并 行 纺 
程 经 验 。 如 果 要 利用 并 行 计 算 机 带 来 的 并 行 性 潜能 ， 大 部 分 程序 员 都 需要 学 习 如 何 编写 并 行 
程序 。 

本 书 将 为 有 串 行 程序 设计 经 验 的 程序 员 介 绍 编写 并 行程 序 的 设计 方法 。 虽 然 已 经 有 一 些 
优秀 的 书籍 介绍 过 特殊 的 并 行 编程 环境 ， 但 本 书 不 同 之 处 在 于 ， 我 们 主要 介绍 并 行 算法 的 构 
造 和 设计 思路 。 因 此 ， 我 们 将 使 用 模式 语言 的 概念 ， 在 面向 对 象 社 区 中 已 经 大 量 使 用 了 这 种 
包含 专家 设计 经 验 的 高 度 结构 化 表示 。 

本 书 前 两 章 将 介绍 基础 知识 ， 其 中 第 1 章 概述 理解 和 使 用 模式 语言 所 必需 的 并 行 计算 相 
关 概 念 及 其 背景 ， 第 2 章 将 更 深入 地 讨论 并 行程 序 员 所 使 用 的 基本 概念 和 术语 ， 其 余 章节 介 
绍 具体 的 模式 语言 。 


1.2 并行 编程 


并 行 计算 的 关键 是 可 挖掘 的 并 发 性 。 如 果 一 个 计算 问题 能 够 被 分 解 成 多 个 子 问题 ， 并 且 
所 有 子 问题 可 在 相同 时 间 内 同时 、 安 全 地 解决 ， 则 该 问题 就 存在 并 发 性 。 必 须 分 析 问 题 并 发 
性 并 在 代码 中 显示 开发 性 ， 使 得 子 问题 能 够 并 行 执行 ， 也 就 是 说 ， 问 题解 决 方案 必须 具备 并 
发 性 。 | 

大 部 分 大 规模 计算 问题 具备 一 定 的 并 发 性 。 程 序 员 通 过 建立 并 行 算法 并 在 并 行 编程 环境 
中 实现 来 挖掘 问题 的 并 发 性 。 这 样 ， 当 并 行程 序 在 多 处 理 器 系统 上 运行 时 ， 才 能 在 更 短 的 时 
间 内 完成 计算 。 此 外 ， 相 对 于 单 处 理 顺 系统 ， 多 处 理 咒 系统 能 处 理 规 模 更 大 的 问题 。 

例如 ， 假 设计 算 包 括 求 一 个 大 型 数据 集 的 和 时 ， 串 行 计算 将 所 有 的 值 按 顺序 相 加 ; 如 果 
使 用 多 处 理 右 ， 则 需 划 分 数据 集 ， 并 在 不 同 处 理 器 上 计算 每 个 子 集 的 和 ， 同 时 完成 计算 ， 最 
后 求 所 有 子 集 之 和 。 这 样 利用 多 处 理 器 并 行 计算 能 更 快 地 完成 任务 。 若 每 个 处 理 器 都 有 私有 
内 存 ， 将 数据 分 布 到 多 个 处 理 器 上 即 可 处 理 更 大 规模 的 问题 。 

上 述 简 单 示 例 展示 了 并 行 计 算 的 本 质 。 并 行 计 算 的 目标 是 利用 多 处 理 器 在 更 短 时 间 内 解 
决 问题 ， 以 及 处 理 规 模 更 大 的 问题 〈 与 单 处 理 所 能 处 理 的 问题 规模 相 比 )。 程 序 员 需 要 鉴别 出 
问题 的 并 发 性 ， 并 设计 并 行 算法 来 挖掘 问题 中 的 并 发 性 ， 然 后 在 合适 的 并 行 编程 环境 中 编写 
并 行 代 码 ， 最 后 在 并 行 系统 上 运行 。 

并 行 编程 也 面临 一 些 挑战 。 通 常 ， 问 题 所 包含 的 并 发 任务 间 具 有 一 定 依 赖 性 ， 这 些 子 计 
算 以 不 同 顺序 完成 可 能 会 影响 程序 的 运行 结果 。 例 如 ， 在 上 述 并 行 求 和 示例 中 ， 某 一 子 集 求 
和 计算 完成 后 ， 才 能 与 其 他 子 集 的 和 相 加 。 该 算法 对 所 有 任务 强加 了 一 种 偏 序 顺 序 ( 即 所 有 
子 任务 完成 后 才能 够 被 组 合 在 一 起 计算 最 终结 果 )。 此 外 ， 由 于 浮 点 运算 具有 非 结 合 性 和 非 
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交换 性 ， 因 此 当 求 和 运算 顺序 不 同时 ， 计 算 结 果 可 能 会 有 微小 的 数值 差 。 设 计 安 全 的 并 行程 
序 需要 付出 大 量 努 力 ， 优 秀 并 行程 序 员 必 须 非常 谨慎 以 保证 这 些 不 确定 性 不 会 影响 最 终 计 算 
结果 。 

即使 一 个 并 行程 序 是 “正确 ”的 ， 它 也 可 能 无 法 通过 挖掘 并 发 性 来 实现 性 能 提高 。 必 须 
确保 挖掘 并 发 性 而 导致 的 额外 开销 不 会 严重 影响 程序 运行 时 间 ， 并 且 在 其 他 问题 中 实现 负载 
平衡 通常 不 像 求 和 问题 那样 简单 。 并 行 算法 效率 依赖 于 它 与 底层 硬件 体系 结构 间 的 映射 关系 ， 
一 个 并 行 体系 结构 上 执行 效率 非常 高 的 并 行 算 法 在 男 一 个 体系 结构 上 执行 的 性 能 可 能 很 差 。 

第 2 章 将 更 为 量化 地 介绍 并 行 计算 并 重新 讨论 这 个 问题 。 


1.3 ”设计 模式 和 模式 语言 


设计 模式 描述 在 特定 上 下 文中 类 似 问 题 的 有 效 解 决 方法 。 模 式 具 有 预定 的 格式 ， 包 括 模 
式 名 称 、 上 下 文 的 描述 、 目 标 和 限制 以 及 相应 的 解决 方案 。 其 理念 是 记录 专家 经 验 ， 供 他 人 
遇 到 类 似 问 题 时 参考 借鉴 。 除 了 解决 方法 本 身 外 ， 模 式 名 称 也 是 非常 重要 的 ， 它 构成 了 领域 
专用 词汇 的 基础 ， 有 效 加 强 同 一 领域 设计 者 之 间 的 交流 。 E 

设计 模式 最 早 由 Christopher Alexander 提出， 其 应 用 的 领域 是 城市 规划 和 建筑 学 
[AIS77]。Beck 和 Cunningham[BC87] 最 早 将 设计 模式 概念 引入 软件 工程 社区 ， 随 着 Gamma, 
Helm, Johnson 和 Vlissides[GHJV95] 的 名 为 GoF ( Gang of Four 的 缩写 ) 的 书籍 的 出 版 ， 这 
一 概念 在 面向 对 象 编程 中 占据 了 重要 地 位 。 该 书 收集 了 大 量 面向 对 象 编程 的 设计 模式 。 例 如 ， 
Visitor 模式 摘 述 了 一 种 组 织 类 的 方式 ， 能 独立 实现 不 同 数据 结构 的 代码 与 遍历 它 的 代码 ， 因 
此 遍历 仅仅 依赖 于 每 个 节点 的 类 型 和 实现 该 遍历 的 类 。 这 能 够 在 不 改变 数据 结构 类 的 情况 下 
灵活 地 添加 新 功能 ， 为 数据 结构 的 不 同 遍 有 历 方法 实现 提供 了 便利 。GoF 书 中 介绍 的 设计 模式 
已 经 进入 了 面 问 对 象 编程 词典 ， 并 已 在 学 术 文 章 、 商 业 出 版 物 和 系统 文档 中 广泛 应 用 ， 这 些 
设计 模式 已 成 为 软件 工程 师 所 必需 的 知识 。 

一 个 组 建 于 1993 年 的 名 为 Hillside Group[Hil] 的 非 盈 利 性 教育 组 织 促进 了 模式 和 模式 语 
言 的 使 用 ， 更 进一步 地 说 ， 它 鼓励 人 们 编写 通用 的 编程 和 设计 实践 方面 的 规范 ， 因 此 促进 了 
人 们 在 计算 机 领域 的 交流 。 为 了 设计 新 的 模式 并 帮助 模式 编写 者 提高 技能 ，Hillside Group 每 
年 举办 一 次 编程 模式 语言 研讨 会 (Pattern Languages of Programs, PLoP )， 并 在 其 他 地 方 举办 
了 分 会 ， 例 如 ChiliPLoP (在 美国 西部 )、KoalaPLoP (在 澳大利亚 )、EuroPLoP (在 欧洲 ) 和 
Mensore PLOP ( 在 日 本 )。 这 些 人 研讨 会 的 论文 集 [Pat] 包含 大 量 模式 资源 ， 履 盖 了 大 多 数 软件 
应 用 领域 ， 并 成 为 几 本 书 的 [CS95、VCK96、MRB97、HFR99] 主要 素材 。 

Alexander 最 初 猎 究 模 式 时 ， 不 仅 提 出 了 一 个 模式 分 类 方法 ,还 提出 了 一 种 模式 语言 ， 从 
而 引入 了 一 种 新 的 设计 方法 。 在 模式 语言 中 ， 所 有 模式 组 织 为 一 个 特殊 结构 ， 用 户 遍 历 模 式 
集 ， 并 选择 具体 模式 来 设计 复杂 系统 。 设 计 者 在 每 个 决策 点 上 选择 一 个 适合 的 模式 ， 该 模式 
可 以 导出 其 他 多 个 模式 ， 最 终 通过 一 个 模式 网 络 完成 设计 。 因 此 ， 模 式 语 言 包 括 了 一 种 设计 
方法 学 ， 并 回应 用 程序 开发 人 员 提 供 了 特定 领域 建议 (尽管 都 称 为 语言 ， 但 模式 语言 并 不 是 
一 种 编程 语言 )。 


1.4 关于 并 行 编程 的 模式 语言 
本 书 给 出 了 用 于 并 行 编程 的 模式 语言 ， 它 具有 许多 优势 。 最 直接 的 好 处 是 它 可 以 通过 提 
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供 重要 问题 解决 方法 目录 、 扩 展 的 词汇 表 和 方法 学 来 传播 专家 经 验 。 我 们 希望 在 并 行程 序 开 
发 的 全 过 程 中 提供 指导 来 降低 并 行 编程 的 难度 。 程 序 员 首先 应 深入 理解 要 解决 的 实际 问题 ， 
然后 利用 模式 语言 ， 最 终 得 到 详细 的 并 行 设 计 或 代码 。 我 们 的 长 期 目标 是 希望 模式 语言 成 为 
定性 评估 不 同 编程 模型 、 促 进 并 行 编程 工具 开发 的 基础 。 

模式 语言 由 4 个 设计 空间 组 成 ,包括 寻找 并 发 性 、 算 法 结构 、 支 持 结构 和 实现 机 制 ， 如 
图 1-1 ras, 4 个 空间 构成 一 个 线性 层次 ， 其 中 寻找 并 发 性 位 于 
顶部 ， 而 实现 机 制 位 于 底部 。 

寻找 并 发 性 设计 空间 的 目标 是 重组 问题 以 揭示 其 可 开发 的 并 
发 性 。 设 计 者 在 这 个 层次 中 主要 面 对 高 层次 算法 问题 ， 并 揭示 问 
题 的 潜在 并 发 性 。 算 法 结构 设计 空间 利用 潜在 并 发 性 构造 算法 ， 
设计 者 在 这 个 层次 上 考虑 如 何 利 用 寻找 并 发 性 模式 中 的 并 发 性 。 
算法 结构 模式 描述 开发 并 发 性 的 整体 策略 。 支 持 结 构 设 计 空 间 为 
算法 结构 设计 空间 和 实现 机 制 设 计 空 间 提 供 了 一 个 中 间 层 。 支 持 
结构 设计 空间 有 两 组 重要 的 模式 ， 一 组 程序 构造 方法 的 模式 ， 男 图 1-1 模式 语言 概况 
一 组 是 通用 共享 数据 结构 模式 。 实 现 机 制 设计 空间 将 上 层 空 间 的 
模式 映射 到 特定 的 编程 环境 中 。 它 描述 进程 /线程 管理 ( 例如 ， 创 建 或 销毁 进程 /线程 ) 和 进 
FE /线程 间 交 互 ( 例如 信号 量 、 栅 栏 或 消息 传递 ) 的 通用 机 制 。 实 现 机 制 设计 空间 中 的 条 目 
直接 被 映射 到 特定 并 行 编程 环境 中 的 元 素 ， 因 此 不 表示 为 模式 。 但 它们 都 包含 在 模式 语言 中 ， 
以 便 提 供 从 问题 描述 到 最 终 编码 的 完整 解决 方案 。 
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并 行 计 算 的 背景 和 术语 





本 章 将 简单 介绍 并 行 编程 的 背景 ， 并 定义 即将 使 用 的 模式 中 的 所 有 的 并 行 计 算术 语 。 由 
于 很 多 术语 在 计算 中 会 被 反复 使 用 ， 并 且 在 不 同 的 上 下 文中 具有 不 同 的 含义 ， 因 此 即使 对 于 
熟悉 并 行 编程 的 读者 ， 我 们 仍 建议 你 浏览 本 章 。 


2.1 并 行程 序 中 的 并 发 性 与 操作 系统 中 的 并 发 性 


最 初 ， 在 计算 中 挖掘 程序 的 并 发 性 是 为 了 更 好 地 利用 或 共享 计算 机 中 的 资源 。 现 代 操 作 
系统 支持 上 下 文 切 换 ， 人 允许 多 个 任务 并 发 执行 ， 当 某 个 处 理 器 因 某 个 任务 发 生 停顿 时 ， 可 以 
执行 其 他 任务 。 例 如 ， 这 种 并 发 性 应 用 支持 处 理 器 通过 在 执行 新 任务 而 让 其 他 任务 等 待 IO 
来 保持 繁忙 。 通 过 快速 的 任务 切换 ， 为 每 个 任务 分 配 一 个 处 理 器 时 间 “ 片 ”， 操 作 系统 支持 多 
个 用 户 使 用 同一 个 系统 ， 仿 佛 每 个 用 户 独占 该 计算 机 一 样 ( 尽 管 这 样 会 有 损 系 统 性 能 )。 

大 多 数 现代 操作 系统 能 使 用 多 个 处 理 咒 增加 系统 的 吞吐 量 。UNIX shell 使 用 并 发 性 和 称 
为 管道 的 通信 抽象 来 提供 强大 的 模块 化 功能 : 可 以 编写 命令 来 接受 字 节 流 作 为 输入 ( 消费 者 ) 
和 产生 字 节 流 作为 输出 (生产 者 )。 多 个 命令 通过 管道 将 命令 的 输出 和 下 一 个 命令 的 输入 串联 
起 来 ， 利 用 这 些 简 单 的 块 可 以 构建 一 些 复杂 的 命令 。 每 个 命令 在 各 自 的 进程 中 执行 ， 而 所 有 
的 进程 并 发 执行 。 因 为 对 于 如 果 管 道中 没有 可 用 的 缓存 空间 则 生产 者 会 阻塞， 如 果 数 据 不 可 
用 则 消费 者 会 阻塞 ， 这 极 大 地 简化 了 对 命令 之 间 计 算 结 果 流 移动 的 管理 工作 。 最 近 ，Windows 
操作 系统 允许 用 户 同时 处 理 多 个 事件 ， 网 络 经 常 出 现 明 显 的 IO 延迟 现象 ， 并 且 几 乎 每 一 个 
GUI 程序 都 具有 并 发 性 。 | 

在 并 行程 序 和 操作 系统 中 ， 尽 管 在 安全 处 理 并 发 性 方面 的 基本 概念 是 一 致 的 ， 但 存在 着 
一 些 重 大 的 区 别 。 对 于 操作 系统 而 言 ， 问 题 不 是 寻找 并 发 性 一 一 并 发 性 是 操作 系统 固有 的 特 
性 ， 管 理 一 组 并 发 执行 的 进程 集 ( 代表 用 户 、 应 用 程序 以 及 诸如 打印 池 的 后 台 操 作 )， 并 提供 
同步 机 制 以 确保 资源 安全 共享 。 尽 管 如 此 ， 操 作 系 统 的 并 发 性 必须 具有 健壮 性 和 安全 性 : 进 
程 之 间 互 不 干涉 ( 有意 或 者 无 意 的 )， 且 整个 系统 不 应 该 因为 单个 进程 出 现 故 障 而 月 演 。 在 并 
行程 序 中 ， 需 要 考虑 进程 之 间 的 相互 独立 性 ( 而 操作 系统 不 需要 )， 寻 找 和 挖掘 并 发 性 非常 具 
有 挑战 。 性 能 目标 对 于 操作 系统 和 并 行程 序 有 所 不 同 。 在 操作 系统 中 ， 人 性 能 目标 通常 与 吞吐 
量 或 啊 应 时 间 相 关 ， 宁 愿 牺牲 一 些 效率 来 获得 健壮 性 和 资源 分 配 的 公平 性 。 而 对 于 并 行程 序 
而 言 ， 目 标 是 最 小 化 单个 程序 的 执行 时 间 。 


2.2 ”并行 体系 结构 简介 


并 行 体系 结构 的 种 类 有 几 十 种 ， 包 括 工作 站 网 络 、 商 用 PC 集群 、 大 规模 并 行 超级 计算 
机 、 紧 耦合 对 称 多 处 理 器 和 多 处 理 器 工作 站 。 本 节 将 概述 这 些 系 统 ， 主 要 介绍 与 程序 员 相 关 
的 一 些 特点 。 


SN 
R 
No 
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| 2.444 Flynn 分 类 法 


到 目前 为 止 ， 描 述 这 些 体系 结构 最 通用 的 方式 是 使 用 Flynn 分 类 法 [Fly72]。 他 根据 指令 
流 数 目 和 数据 流 数 目 对 所 有 的 计算 机 进行 分 类 ， 其 中 ， 流 是 计算 机 操作 的 指令 序列 和 数据 序 
列 。 利 用 Flynn 分 类 法 ， 有 4 种 类 型 : SISD, SIMD, MISD, MIMD, 

单 指令 单数 据 (SISD): 在 一 个 SISD 系统 中 ， 一 个 指令 流 处 理 
一 个 数据 流 ， 如 图 2-1 所 示 。 这 是 最 常见 的 汉 : 诺 依 曼 模 型 ， 几 乎 应 
用 于 所 有 单 处 理 需 计算 机 中 。 

单 指令 多 数据 (SIMD): 在 一 个 SMD 系统 中 ， 一 个 指令 流 被 
并 发 地 广播 到 多 个 处 理 器 上 ， 每 个 处 理 需 拥有 各 目的 数据 流 〈 如 图 
2-2 所 示 )。Thanking Machines 和 MasPar 等 最 初 的 系统 属于 SIMD. 
CPP DAP Gamma II 和 Quadrics Apemille 是 最 近 的 实例 ， 这 些 机 融通 
常 是 针对 专门 的 应 用 而 部 署 的 (例如 ， 数 字 信 和 号 处 理 )， 它 们 适用 于 细 
粒度 并 行 ， 并 且 进 程 间 通信 较 少 。 向 量 处 理 器 (以 流水 线 的 方式 操作 向 
量 数据 ) 也 属于 SIMMD， 挖 气 这 种 并 行 性 的 工作 通常 由 编译 器 来 完成 。 图 2-1 SISD 体系 结构 
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图 2-2” SIMD 体系 结构 


多 指令 单数 据 (MISD ): 没有 知名 的 系统 属于 此 类 型 ， 提 到 它 仅 出 于 完整 性 的 缘故 。 

多 指令 多 数据 (MIMD): 在 一 个 MMD 系统 中 ， 每 个 处 理 单元 拥有 自己 的 指令 流 ， 并 且 
这 些 指 令 流 操 作 自 己 的 数据 流 。 如 图 2-3 所 示 ， 由 于 其 他 的 每 一 种 体系 结构 都 能 映射 到 MIMD 
体系 结构 上 ， 因 此 该 体系 结构 是 最 通用 的 体系 结构 。 绝 大 多 数 的 现代 并 行 系统 都 属于 此 类 型 。 


令 
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图 2-3 MIMD 体系 结构 
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2.2.2 MIMD 的 进一步 分 类 


在 Flynn 分 类 法 中 ，MIMD 类 别 太 宽 泛 而 用 途 不 大 。MIMD 类 别 通常 根据 内 存 组 织 方式 
进一步 划分 。 


共享 内 存 
在 一 个 共享 内 存 系统 中 ， 所 有 的 进程 共享 同一 地 址 空间 ， 并 且 通 过 读 写 共享 变量 进行 
通信 。 


共享 内 存 系统 中 有 一 类 称 为 SMP (对称 多 处 理 器 )。 如 图 2-4 所 示 ， 所 有 的 处 理 融通 过 连 
接 共享 一 块 公 用 的 内 存 ， 并 以 相同 的 速度 访问 内 存 中 所 有 位 置 。 对 于 编程 而 言 ，SMP 系统 被 
认为 是 最 简单 的 并 行 系统 ， 因 为 程序 员 不 用 在 处 理 融 CPU CPU CPU CPU 
间 分 配 数 据 结 构 ， 处 理 器 / 内存 带 宽 是 一 个 典型 的 限制 m Ea mes m 
因素 。 所 以 ，SMP 系统 可 扩展 性 较 差 ， 并 且 局 限于 处 
理 器 数量 较 少 的 系统 。 

其 他 共享 内 存 系统 类 型 主要 称 为 NUMA (Non- 图 2-4 SMP 体系 结构 
Uniform Memory Access， 非 均匀 内 存 访问 )。 如 图 2-5 所 示 ， 内 存 是 共享 的 ， 即 所 有 的 处 理 顺 
都 可 以 访问 该 内 存 ， 但 是 内 存 中 某 些 内 存 块 的 物理 位 置 相 较 于 其 他 处 理 器 的 距离 更 接近 于 其 
所 关联 的 处 理 器 。 这 降低 了 内 存 的 带宽 瓶颈 ， 人 允许 系统 拥有 更 多 的 处 理 右 。 尽 管 有 上 述 好 处 ， 
但 也 带 来 了 处 理 器 访问 内 存 的 时 间 上 的 重大 的 差异 ， 依 赖 于 内 存 位 置 与 处 理 需 的 “远近 "。 为 
了 缓解 非 均 匀 访 问 的 有 影响， 每 个 处 理 器 配置 了 一 个 缓存 ( cache )， 以 及 保持 缓存 一 致 性 的 协 
议 。 因 此 ， 这 些 体系 结构 的 别称 是 缓存 一 致 非 统一 内 存 访问 系统 (cceNUMA ) 3258 EF, TE 
ccNUMA 系统 上 编程 类 似 于 在 SMP 上 编程 。 但 为 了 获取 最 优 性 能 ， 程 序 员 更 加 需要 关注 数 
据 本 地 化 问题 和 缓存 效果 。 
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图 2-5 NUMA 体系 结构 示例 
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分 布 式 内 存 。 在 分 布 式 内 存 系统 中 ， o PS 
每 个 进程 拥有 自己 的 地 址 空间 ， 并 且 通 
过 消息 传递 ( 发 送 和 接收 消息 ) 与 其 他 


进程 进行 通信 。 分 布 式 内 存 计算 机 的 示 | 内 存 | | 内 存 | 


意图 如 图 2-6 所 示 。 | 
图 2-6 分布 式 内 存 体系 结构 
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由 于 通信 速度 依赖 于 处 理 器 互 连 的 拓扑 结构 和 技术 ， 因 此 通信 速度 相差 很 大 ， 最 快 几 乎 
相当 于 共享 内 存 (紧密 集成 的 超级 计算 机 )， 最 慢 到 几 个 数量 级 差别 ( 例如， 通过 以 太 网 互 接 
的 PC 集群 )。 程 序 员 编写 程序 时 必须 显 式 地 管理 处 理 器 间 的 通信 和 数据 分 配 。 

分 布 式 内 存 计算 机 传统 上 分 成 两 类 : MPP ( 大 规模 并 行 处 理 器 ) 和 集群 。 在 MPP 中 ， 处 
理 器 与 网 络 基 础 结构 紧 斐 合 ， 并 专用 于 并 行 计 算 机 。 这 些 系 统 具 有 很 强 的 可 扩展 性 ， 在 茶 些 
示例 中 ， 单 个 系统 能 够 支持 数 以 千 计 的 处 理 器 [MSW96,IBM02]。 

集群 是 通过 商用 网 络 将 商用 计算 机 互 连 起 来 组 成 的 分 布 式 内 存 系统 。 计 算 机 是 运行 
Linux 操作 系统 的 PC， 这 样 的 集群 称 为 Beowulf 集群 。 伴 随 着 商用 互连网 络 的 改良 ， 该 类 系 
统 变 得 越 来 越 通 用 和 强大 。 集 群 为 获取 并 行 计算 能 力 提供 了 廉价 的 组 织 方式 [Beol]。 目 前 ， 很 
多 厂商 提供 预 配置 的 集群 。 一 个 经 费 有 限 的 团队 其 至 可 以 利用 过 时 和 废弃 的 PC 组 成 的 集群 
构建 一 个 有 用 的 并 行 系统 [HHS01]。 

混合 系统 。 这 些 系 统 是 具有 独立 地 址 空间 的 节点 集群 ， 每 个 节点 包含 几 个 共享 内 存 的 处 
PESE. 

根据 van der Steen 和 Dongarra fJ "Overview of Recent Supercomputers” [vdSD03], iXX 
对 当前 以 及 将 要 出 现 的 商用 超级 计算 机 进行 了 简要 的 描述 ， 通 过 快速 网 络 互 连 的 SMP 集群 所 
组 成 的 混合 系统 是 当前 高 性 能 计算 主要 趋势 。 例 如 ， 在 2003 年 年 底 ， 世 界 上 最 快 的 5 台 计 算 
机 中 有 4 台 是 混合 系统 [Top]. 

网 格 。 网 格 是 通过 LAN 和 /或 WAN 将 分 布 的 和 异 构 的 资源 进行 互 连 而 构成 的 系统 
[FK03]。 通 常 互 联 的 网 络 是 Internet。 网 格 的 设计 初衷 是 连接 多 个 超级 计算 机 来 解决 更 大 规模 
的 问题 ， 因 此 它 可 以 看 作 分 布 式 内 存 或 者 混合 MIMD 计算 机 的 一 种 特殊 类 型 。 最 近 ， 网 格 计 
算 的 思想 演变 成 了 一 种 共享 异 构 资 源 的 和 常用 方式 ， 比 如 ， 计 算 服务 器 、 内 存 、 应 用 服务 器 、 
信息 服务 ， 甚 至 科学 仪 希 。 网 格 与 集群 的 不 同 之 处 在 于 网 格 中 的 各 种 资源 不 需要 一 个 公用 的 
管理 点 。 在 大 多 数 示 例 中 ， 网 格 上 的 资源 被 不 同 的 组 织 所 占有 ， 这 些 组 织 控制 对 资源 的 使 用 
策略 。 这 影响 了 这 些 系统 的 使 用 以 及 管理 它们 的 中 间 件 ， 网 格 中 资源 间 的 通信 开销 最 值得 
探讨 。 


2.2.3 小 结 


我 们 根据 硬件 特征 对 系统 进行 了 分 类 。 这 些 特 征 一 般 会 影响 用 于 描述 该 系统 并 发 性 的 原 
始 编程 模型 。 尽 管 如 此 ， 也 有 例外 ， 共 享 内 存 机 融 上 的 编程 环境 可 以 为 程序 员 提 供 分 布 式 内 
存 和 消息 传递 的 抽象 。 虚 拟 的 分 布 式 共享 内 存 系统 包含 提供 相反 功能 的 中 间 件 : 将 分 布 式 共 
享 内 存 的 机 融 抽 象 成 共享 内 存 。 


2.3 ”并 行 编程 环境 


并 行 编程 环境 提供 了 基本 工具 、 语 言 特征 和 应 用 程序 编程 接口 (API ) 用 于 构建 并 行程 
序 。 编 程 环境 意味 着 对 计算 机 系统 特定 的 抽象 ， 这 种 抽象 称 为 “编程 模型 "。 传 统 的 串 行 计算 
机 使 用 的 是 著名 的 汉 : 诺 依 曼 模型 。 由 于 所 有 的 串 行 计算 机 使 用 该 模型 ， 因 此 软件 设计 者 能 
够 针对 单个 抽象 设计 软件 ， 并 且 期 望 它 能 够 映射 到 大 多 数 ( 并非 全 部 ) 串 行 计算 机 上 。 

遗憾 的 是 ， 并 行 计算 存在 很 多 可 能 的 模型 ， 反 映 处 理 器 互 连 构成 的 并 行 系统 的 不 同方 式 。 
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最 通用 的 模型 是 基于 广泛 应 用 在 并 行 体系 结构 上 的 模型 共享 内 存 、 基 于 消息 传递 的 分 布 式 
内 存 ， 或 者 这 两 种 的 混合 。 

编程 模型 与 某 种 并 行 系统 紧密 相连 ， 导 致 程序 在 并 行 计算 机 之 间 不 具有 可 移植 性 。 由 于 
软件 的 生命 周期 长 于 硬件 ， 一 些 组 织 机 构 拥 有 多 种 类 型 的 并 行 计 算 机 ， 大 多 数 程序 员 认 为 编 
程 环境 应 该 能 够 让 他 们 编写 的 并 行程 序 具 有 可 移植 性 。 此 外 ， 显 式 管 理 并 行 计算 机 中 大 量 的 
资源 是 非常 困难 的 ， 因 此 ， 对 并 行 计算 机 进行 更 高 层次 的 抽象 是 非常 有 用 的 。20 世纪 90 年 
代 中 期 ， 出 现 了 大 量 的 并 行 编程 环境 。 表 2-1 列 出 了 其 中 一 些 部 分 。 这 给 应 用 程序 开发 这 带 
来 了 巨大 的 困扰 ， 并 且 阻 碍 了 将 并 行 计算 用 于 主流 应 用 程序 中 。 


表 2-1 20 世纪 90 年 代 中 期 的 一 些 并 行 编程 环境 
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SZE, 20 世纪 90 年 代 后 期 ， 并 行 编程 行业 统一 到 两 个 主流 的 并 行 编程 环境 : 用 于 
共享 内 存 系统 的 OpenMP [OMP] 和 基于 消息 传递 的 MPI [Mesb]。 
|. OpenMP 是 一 组 声言 扩展 ， 通 过 编译 器 指令 实现 。 目 前 该 实现 支持 Fortran、C 和 CH, 
OpenMP 被 频繁 地 用 于 在 串 行 代码 中 增加 并 行 性 。 通 过 在 循环 附近 添加 编译 器 指导 语句 ， 例 
如 ， 编 译 帮 能 够 产生 代码 用 于 并 行 执行 循环 中 的 迭代 。 编 译 右 负责 大 多 数 线 程 创建 和 管理 的 
细节 。OpenMP 程序 在 SMP 机 器 上 工作 效果 很 好 ， 但 是 由 于 底层 的 编程 模型 没有 包含 非 统 一 
内 存 访问 时 间 的 概念 ， 因 此 不 太 适 用 于 ccNUMA 和 分 布 式 内 存 机 器 。 

MPI 是 一 组 例 程 库 ， 提 供 进程 管理 、 消 息 传递 和 一 些 集合 通信 操作 ( 对 程序 中 所 有 进程 
进行 操作 ， 例 如， 栅栏 、 广 播 和 归 约 )。 由 于 程序 员 负 责 数 据 分 布 和 使 用 消息 在 进程 间 显 式 通 
信 ， 因 此 编写 MPI 程序 并 非 易 事 。 由 于 该 编程 模型 假定 系统 是 分 布 式 内 存 类 型 ， 因 此 ，MPI 
对 于 MPP 和 其 他 分 布 式 共享 内 存 的 机 器 是 个 不 错 的 选择 。 

无 论 是 OpenMP 还 是 MPI， 都 不 适合 于 由 多 个 多 处 理 器 节点 组 成 的 更 大 的 混合 体系 结构 
(该 系统 中 每 个 节点 拥有 多 个 进程 和 一 个 共享 内 存 ， 节 点 之 间 的 地 址 空间 是 独立 的 ): OpenMP 
模型 无 法 识别 非 统一 内 存 访问 时 间 ， 因 此 其 数据 分 配 在 非 SMP 机 器 上 性 能 低下 ， 而 MPI 不 
包含 用 于 管理 驻 留 于 共享 内 存 中 数据 结构 的 概念 。 混 合 模型 的 一 种 解决 方法 是 : 在 每 个 共享 
内 存 节点 中 使 用 OpenMP， 节 点 之 间 使 用 MPI。 这 种 方式 能 够 很 好 地 工作 ， 但 是 要 求 程 序 员 

在 单个 程序 中 使 用 两 种 不 同 的 编程 模型 。 男 外 一 种 选择 是 在 共享 内 存 和 分 布 式 内 存 上 都 使 用 
MPI， 放 弃 共 享 内 存 编程 模型 的 优势 ， 即 便 硬 件 支持 该 模型 。 

能 够 简化 可 移植 性 并 行 编程 和 更 准确 地 反映 底层 并 行 体系 结构 特点 的 新 的 高 级 编程 环境 
是 目前 研究 的 主题 [Cen]。 商 业 领 域 中 比较 常用 的 做 法 是 扩展 MPI 和 OpenMP， 在 20 世纪 90 
年 代 中 期 ，MPI 论坛 定义 了 称 为 MPI 2.0 的 MPI 扩展 ， 尽 管 该 实现 在 本 书 编 写 之 际 还 没有 得 
到 广泛 的 使 用 。 它 是 MPI 的 一 个 非常 复杂 的 扩展 ， 包 括 动态 进程 创建 、 并 行 VO 和 其 他 特性 。 
对 于 在 现代 混合 体系 结构 上 编写 程序 的 人 们 而 言 ， 他 们 特别 感 兴 趣 的 是 MPI 2.0 中 的 单 边 通 
信 。 单 边 通 信和 模仿 了 共享 内 存 系统 的 一 些 特性 ， 人 允许 一 个 进程 写 人 或 读 取 其 他 进程 的 内 存 区 
域 。 术 语 “ 单 边 ” 是 指 读 或 写 由 初始 化 进程 发 起 ， 没 有 显 式 地 包括 其 他 参与 的 进程 。 对 单 边 
通信 更 为 复杂 的 抽象 可 以 在 Global Arrays[INHL96、NHK*02、Gloal] 软件 包 中 获得 。Global 
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Arrays 与 MPI 一 起 工作 ， 帮 助 程序 员 管 理 分 布 式 的 数组 元 素 。 程 序 员 定义 了 数组 和 其 在 内 存 
中 的 放置 之 后 ， 程 序 通过 执行 MPI 中 “puts” 或 者 “gets” 函 数 来 操作 数组 ， 不 需要 显 式 地 
管理 哪个 MPI 进程 “拥有 ”数组 的 特定 部 分 。 本 质 上 ， 全 局 数据 为 全 局 共享 的 数组 提供 了 抽 
象 。 这 仅 限 于 数组 ， 数 组 是 并 行 计 算 中 非常 通用 的 数据 结构 ， 尽 管 有 局 限 性 ， 但 是 非常 有 用 。 

就 像 扩 展 MPI 来 模仿 共享 内 存 环境 的 某 些 优点 一 样 ，OpenMP 也 被 扩展 成 运行 于 分 布 式 
共享 内 存 环 境 。 nto ape eps enet nd i R 
群 和 ccNUMA 环境 中 的 各 种 方法 与 经 验 的 论文 。 

MPI 被 实现 成 例 程 库 ， 以 便 被 使 用 串 行 编程 语言 编写 的 程序 调用 ， 而 OpenMP 是 串 行 编 
程 语言 的 一 组 扩展 。 它 们 代表 了 并 行 编程 环境 中 两 种 可 能 的 类 别 ( 库 和 语言 扩展 )， 并 且 这 
两 种 环境 考虑 了 绝 大 多 数 并 行 计 算 。 尽 管 如 此 ， 还 存在 男 一 种 并 行 编程 环境 类 型 ， 即 语言 本 
身 拥 有 并 行 编程 特性 ，Java 就 是 这 样 的 语言 。Java 最 初 并 不 是 用 于 支持 高 性 能 计算 的 ， 它 是 
一 种 面向 对 象 、 通 用 的 编程 环境 ， 拥 有 显 式 地 表达 共享 内 存 中 并 发 处 理 的 特性 。 此 外 ， 标 准 
的 IO 和 网 络 软件 包 使 Java 在 机 器 间 的 进程 之 间 通 信 变 得 非常 容易 ， 这 使 得 在 共享 内 存 和 分 
布 式 内 存 模型 中 编写 程序 变 为 可 能 。 最 新 的 java.nio 包 支 持 IO 操作 ， 在 某 种 程度 上 使 程序 员 
不 太 方便 ， 但 能 带 来 巨大 的 性 能 提升 。Java 2 1.5 包含 了 对 并 发 编程 的 新 支持 ， 主 要 位 于 java. 
util.concurrent.* 包 中 。 此 外 ， 还 有 很 多 支持 不 同 并 行 计算 方法 的 包 。 

尽管 存在 其 他 通用 编程 语言 ， 无 论 是 先 于 Java 出 现 还 是 最 近 出 现 的 (例如 C# )， 其 中 都 
包含 了 用 于 表达 并 发 性 的 构造 ，Java 是 首先 被 广泛 使 用 的 语言 。 因 此 ， 许 多 程序 员 使 用 Java 
初次 尝试 并 发 和 并 行 编程 。 尽 管 Java 在 软件 工程 方面 提供 了 很 多 优势 ， 但 是 目前 Java 并 行程 
序 的 性 能 难以 与 科学 计算 应 用 中 的 OpenMP 或 者 MPI 程序 匹敌 。Java 的 设计 在 这 些 领域 中 也 
存在 几 种 重大 缺陷 例如， 强调 可 移植 性 和 可 重 现 结 果 的 浮 点 模型 ， 而 不 是 尽 可 能 挖掘 可 用 
的 浮 点 硬件 能 力 ; 低 效 的 数组 处 理 和 缺少 处 理 复数 的 便利 机 制 )。 随 着 Java 编译 器 技术 的 提 
升 、 新 的 软件 包 和 语言 扩展 的 出 现 ，Java 和 其 他 编程 语言 之 间 的 性 能 差异 正在 逐步 缩小 ， 尤 
其 对 于 符号 或 者 其 他 非 数 值 问题 。Titanium 项 目 [Tita] 就 是 Java 语言 针对 ccNUMA 环境 中 高 
性 能 计算 而 设计 的 。 

本 书 中 ,我 们 选择 了 OpenMP, MPI 和 Java 三 种 环境 ， 将 在 示例 中 使 用 它们 一 一 选择 
OpenMP 和 MPI 是 因为 它们 具有 普 滔 性 ， 而 选择 Java 是 因为 许多 程序 员 用 它 来 进行 并 发 编程 
的 初次 尝试 。 它 们 的 概述 见 附录 。 


2.44 ”并 行 编程 术语 


本 方 定义 了 模式 语言 中 常用 的 术语 。 其 他 术语 的 定义 可 以 在 术语 表 中 找到 。 

任务 。 设 计 并 行程 序 的 第 一 步 是 将 问题 分 解 成 多 个 任务 。 一 个 任务 是 一 个 指令 序列 ， 并 
且 作 为 一 个 小 组 (group ) 一 起 操作 。 这 个 小 组 相当 于 一 个 算法 或 者 程序 的 某 个 逻辑 部 分 。 例 
如 ， 考 虑 两 个 N 阶 和 矩阵 相 乘 。 根 据 算法 的 构造 方式 ， 任 务 可 以 为 : 1 ) 矩阵 子 块 相 乘 ，2 ) 对 
和 矩阵 的 行 和 列 进行 内 积 ， 或 者 3 ) 矩阵 相 乘 中 单个 循环 迭代 。 这 些 都 是 在 矩阵 相 乘 中 定义 任 
务 的 合理 方式 ， 也 就 是 说 ， 对 任务 的 定义 反映 了 算法 设计 者 对 问题 的 思考 。 

执行 单元 ( UE )。 任 务 需 要 映射 到 某 个 UE， 例 如 ， 进 程 或 者 线程 ， 才 能 执行 。 进 程 是 使 
程序 指令 执行 的 资源 集合 。 这 些 资源 包括 : 虚拟 内 存 、LO 描述 符 、 和 运行 时 栈 、 信 和 号 处 理 程序 、 
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用 户 和 组 ID 以 及 访问 控制 令 牌 。 更 高 层级 的 观点 是 : 进程 是 一 个 “重量 级 ”执行 单元 ， 它 拥 
有 独立 的 地 址 空间 。 线 程 是 现代 操作 系统 中 的 基本 UE。 线 程 与 进程 相关 ， 共 享 进 程 的 环境 。 
这 使 得 线程 具有 轻 量 性 (也 就 是 说 ， 线 程 之 间 的 上 下 文 切 换 耗 费 的 时 间 很 少 )。 更 加 高 级 的 观 
点 是 : 线程 是 一 个 “ 轻 量 ”UE， 它 和 进程 中 的 其 他 线程 共享 一 块 地 址 空间 。 

我 们 将 使 用 执行 单元 作为 可 能 并 发 执行 的 实体 集合 中 某 个 元 素 的 通用 术语 ， 通 常 是 进程 
或 者 线程 。 当 进程 和 线程 之 间 的 差异 不 太 重 要 时 ， 这 种 定义 方式 有 利于 早期 的 程序 设计 。 

处 理 单元 。 我 们 使 用 术语 处 理 单元 (PE ) 表示 执行 指令 流 的 硬件 部 件 。 硬 件 单元 是 否 可 
以 称 为 PE 取决 于 上 下 文 。 例 如 ,一些 编程 环境 将 SMP 工作 站 集群 中 的 每 个 工作 站 看 作 单 个 
指令 流 的 执行 单位 ， 在 这 种 情形 下 ，PE 是 一 个 工作 站 。 但 是 ， 不 同 的 编程 环境 运行 在 同一 硬 
件 上 时 ， 可 能 将 每 个 工作 站 中 的 每 个 处 理 器 看 作 单 个 指令 流 的 执行 单元 ， 在 这 种 情况 下 ，PE 
是 单个 处 理 器 ， 每 个 工作 站 包含 多 个 PE. 

负载 均衡 和 负载 均衡 方法 。 为 了 执行 并 行程 序 ， 任 务必 须 映射 到 UE， 然后 UE 再 映射 
到 PE。 映射 方式 对 并 行 算法 的 整体 性 能 有 重大 的 影响 。 避 免 出 现 部 分 PE 执行 绝 大 多 数 任务 ， 
而 其 他 PE 处 于 闲置 状态 ， 这 是 至 关 重 要 的 。 负 和 载 均衡 (Load balance) 是 指 有 效 地 在 PE 之 
间 分 配 任务 。 负 载 均 衡 方法 (load balancing ) 是 将 任务 分 配 到 PE 上 的 过 程 ， 要 么 是 静态 的 要 
么 是 动态 的 ， 从 而 使 任务 分 配 尽 可 能 均匀 。 

同步 。 在 一 个 并 行程 序 中 ， 由 于 任务 调度 和 其 他 因素 的 不 定性 ， 计 算 中 的 事件 可 能 不 会 
一 直 以 相同 的 顺序 重 现 。 例 如 ， 在 一 次 运行 中 ， 一 个 任务 可 能 在 男 外 一 个 任务 读 变量 y 之 前 
读 变 量 x; 在 下 一 次 运行 中 ， 事 件 的 发 生 顺 序 可 能 与 之 相反 。 在 大 多 数 情 况 下 ， 两 个 事件 的 执 
行 顺序 无 关 紧 要 。 在 其 他 情形 中 ， 顺 序 至 关 重 要 ， 为 了 确保 程序 的 正确 性 ,程序 员 必 须 引 入 
同步 来 强制 确保 执行 的 顺利 。 为 此 目的 而 提供 的 原 语 将 在 本 书 的 实现 机 制 设计 空间 中 进行 探 
it (UL 6.3 45 )。 

同步 与 异步 。 我 们 使 用 这 两 个 术语 来 定性 地 指明 两 个 事件 在 时 间 上 如 何 紧密 耦合 。 如 果 
两 个 事件 必须 在 同一 时 间 发 生 ， 则 它们 是 同步 的 ; 否则 ， 它 们 是 异步 的 。 例 如 ， 消 息 传递 B 
UE 之 间 通 过 发 送 和 接收 消息 而 产生 的 通信 )， 如 果 发 送 的 消息 必须 等 到 接收 者 收 到 之 后 发 送 
者 才 可 以 继续 操作 ， 则 是 同步 的 。 如 果 发 送 者 不 管 接收 者 而 继续 计算 ， 或 者 接收 者 在 等 待 接 
收 完成 的 同时 可 以 继续 计算 ， 则 是 异步 的 。 

竞 态 条 件 。 欧 态 条 件 是 并 行程 序 中 特有 的 一 种 类 型 错误 。 当 程序 的 结果 随 着 UE 的 相对 
调度 顺序 的 改变 而 发 生变 化 时 会 出 现 该 错误 。 由 于 操作 系统 而 非 程 序 员 控 制 UE 的 调度 ， 因 
此 苋 态 条 件 导 致 了 程序 可 能 在 同一 个 系统 上 使 用 同一 份 数 据 却 产生 不 同 的 结果 。 竞 态 条 件 是 
难以 进行 调试 的 错误 ， 因 为 这 类 错误 的 结果 具有 不 可 重 现 性 。 程 序 可 能 已 正确 运行 了 1000 
次 ， 却 突然 在 第 10001 次 运行 时 发 生 错 误 ， 当 程序 员 想 通过 调试 尝试 重 现 错误 时 ， 运 行 结果 
却 再 次 正确 了 。 

蔓 态 条 件 的 错误 归咎 于 同步 。 如 果 多 个 UE 读 写 共享 变量 ， 程 序 员 必须 保护 好 对 这 些 共 
享 变量 的 访问 ， 不 管 任务 交叉 执行 的 方式 如 何 ， 以 保持 读 写 的 顺序 正确 。 当 共享 多 个 变量 或 
者 通过 多 层 间 接 访 问 它 们 时 ， 通 过 检查 验证 条 件 竞争 不 存在 是 非常 困难 的 。 可 以 通过 工具 帮 
助 检测 和 修复 竞 态 条 件 错误 ， 例如， 英特尔 公司 的 Thread Checker， 这 个 问题 仍然 出 现在 活跃 
并 且 重 要 的 研究 领域 [NM92]。 
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死 锁 。 死 锁 也 是 并 行程 序 中 一 种 特殊 的 错误 。 在 某 个 任务 周期 中 ， 每 个 任务 因为 等 待 羽 
一 个 任务 以 便 继续 运行 而 阻塞 时 会 发 生死 锁 。 因 为 所 有 的 任务 都 在 等 待 另外 一 个 任务 ， 所 以 
它们 会 一 直 阻 塞 下 去 。 举 一 个 简单 的 示例 ， 假 定 在 消息 传递 环境 中 有 两 个 任务 ， 任 务 4 尝试 
从 任务 B 中 接收 数据 ， 之 后 再 给 任务 B 发 送 一 条 回复 消息 。 与 此 同时 ,任务 B 尝试 从 任务 A 
中 接收 数据 ， 之 后 将 发 送 消息 给 任务 4。 由 于 每 个 任务 都 在 等 待 男 外 一 个 任务 首先 给 它 发 送 
消息 ， 因 此 这 两 个 任务 会 一 直 阻 塞 下 去 。 幸 运 的 是 ， 发 生死 锁 并 非 难 事 ， 因 为 任务 会 在 死 锁 
的 那个 点 上 停止 。 


2.5 ”并 行 计算 的 度量 


实现 并 行程 序 的 两 个 主要 目的 是 获取 更 佳 性 能 和 解决 更 大 问题 。 性 能 能 够 被 建 模 和 度量 ， 
因此 本 节 将 从 另外 一 个 视角 审视 并 行 计算 ， 通 过 提供 一 些 简单 的 分 析 模 型 来 描述 影响 并 行程 
序 性 能 的 某 些 因素 。 

考虑 到 计算 由 3 部 分 组 成 : 准备 、 计 算 和 结束 ， 因 此 程序 在 PE 上 运行 的 总 时 间 由 这 3 
部 分 时 间 组 成 。 

re Dat Daa t ( 2-1) 

当 我 们 在 拥有 多 个 PE 的 并 行 计 算 机 上 运行 这 个 计算 时 会 发 生 什么 情况 ?假定 准备 与 结 
束 部 分 不 能 和 任何 其 他 活动 并 发 执行 ， 计 算 部 分 被 划分 成 运行 在 多 个 PE 上 的 独立 任务 ， 而 
整个 计算 步骤 的 总 数 与 最 初 的 一 样 。 当 然 可 以 通过 式 ( 2-2 ) 描述 在 PE 上 的 总 计算 时 间 , 但 
是 这 是 一 个 非常 理想 化 的 情形 。 尽 管 如 此 ， 很 实际 的 想法 是 将 计算 划分 成 串 行 部 分 (这 部 分 
中 额外 的 PE 没有 用 武之 地 ) 和 并 行 部 分 (这 部 分 中 更 多 数量 的 PE 会 减少 运行 时 间 )。 因 此 ， 
这 个 简单 的 模型 包含 了 这 个 重要 的 关系 。 


TS a E a aa E (2-2) 
度量 使 用 额外 的 PE 能 带 来 多 大 的 效用 的 一 种 重要 方法 是 使 用 相对 加 速 比 S， 通 过 它 可 以 
得 知 程序 在 并 行情 况 下 与 在 串 行情 况 下 的 运行 时 间 相 差 多 少 ， 从 而 描述 问题 运行 到 底 有 多 快 。 


Tout Gi 
S(P) = TA ( 2-3) 


与 之 相关 的 度量 是 效率 巨 ， 它 是 加 速 比 与 所 使 用 PE 数目 的 比值 。 








E(P) = ud ( 2-4 ) 
— _Toa(l) (2-5) 
PloalP) 


理想 情形 下 ， 我 们 希望 加 速 比 的 值 为 P (PE 的 数目 )。 这 种 情况 通常 称 为 完全 线性 加 速 

比 。 遗 憾 的 是 ， 这 是 一 个 理想 的 情形 ， 实 际 上 很 难 实现 ， 因 为 程序 的 准备 和 结束 时 间 不 能 通 

过 增加 更 多 的 PE 而 减少 。 程 序 中 不 能 并 发 运行 的 部 分 称 为 串 行 部 分 ， 它 们 的 运行 时 间 占 程序 
总 时 间 的 比率 ， 称 为 串 行 比率 ， 表 示 为 y。 

= Teup + Tom (2-6) 


于 是 ,程序 的 并 行 部 分 占 程序 总 时 间 的 比率 为 1-y， 因 此 ， 在 拥有 了 个 PE 的 计算 环境 
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下 ， 整 个 计算 时 间 的 表达 式 可 重 写 为 式 ( 2-7 )。 

Toa (P) = Y Toa(1) + 
现在 ， 借 助 新 的 表达 式 ToalP) 对 8 进行 重 写 ， 得 到 了 著名 的 Amdahl 定律 : 
Tow (1) ( 2-8 ) 
(7 +B”) Fu (1) 
m i= (2-9 ) 
y 十 P 

可 见 ， 在 并 行 部 分 没有 开销 的 理想 并 行 算 法 中 ， 加 速 比 的 计算 应 该 遵循 式 (2-9 )。 当 使 


(1 — 7) Trou (1) (2.2 
E tan a 


S(P) = 











用 超 多 数量 的 处 理 器 并 且 采 用 理想 的 并 行 算法 时 ， 到 底 能 取得 多 大 的 加 速 比 ? 假定 表达 式 中 


的 尸 趋向 于 无 穷 大 ， 得 到 S 的 极限 值 如 式 (2-10) 所 示 。 
Bee (2-10 ) 


因此 式 (2-10) 给 出 了 一 个 算法 所 取得 的 加 速 比 的 上 限 值 ，y 表示 整个 计算 时 间 中 串 行 部 
分 所 占 的 时 间 的 比率 。 

这 些 概念 对 于 并 行 算法 的 设计 者 而 言 至 关 重 要 。 在 设计 一 个 并 行 算法 时 ， 理 解 算法 中 的 
串 行 比率 非常 重要 ， 因 为 借助 它 可 以 得 知 算法 所 的 性 能 。 如 果 一 个 并 行 算法 的 串 行 部 分 高 于 
10% ( 10% 比较 常见 )， 那 么 想 把 它 实 现成 复杂 并 且 可 任意 扩展 的 并 行 算法 是 行 不 通 的 。 

AR, Amdahl 定律 所 基于 的 假设 条 件 在 实际 中 可 能 成 立 也 有 能 不 成 立 。 在 现实 中 ,很 
多 因素 可 能 导致 程序 的 运行 时 间 长 于 公式 所 表示 的 时 间 。 例 如 ， 创 建 额外 的 并 行 任务 可 能 会 
增加 开销 和 对 共享 资源 访问 的 冲突 几率 。 男 一 方面 ， 如 果 当 初 的 串 行 计算 受 限于 资源 而 不 是 
CPU 的 时 钟 周 期 ,算法 取得 的 实际 性 可 能 远 高 于 使 用 Amdahl 定律 预测 的 结果 。 例 如 ， 在 大 
型 并 行 机 上 ， 内 存 能 够 容纳 更 大 规模 的 问题 ， 因 此 可 以 减少 虚拟 内 存 页 ， 或 者 多 个 处 理 器 ， 
每 个 处 理 器 拥有 各 自 的 缓存 ， 可 能 允许 更 多 的 问题 驻 留 在 缓存 之 中 。Amdahl 定律 依赖 的 假设 
是 : 对 于 任意 给 定 的 输入 ， 并 行 实现 和 串 行 实现 执行 计算 的 步骤 数量 是 完全 一 样 的 。 如 果 公 
式 中 使 用 的 串 行 算法 可 能 不 是 该 问题 的 最 佳 算法 ， 那 么 一 个 好 的 并 行 算法 是 通过 采用 不 同 的 
计算 方式 ， 使 构建 出 的 算法 能 够 减少 计算 步骤 的 总 数目 。 

在 [Gus88] 中 可 以 看 到 ，Amdahl 定律 在 某 些 情况 C 同一 问题 规模 运行 在 数量 变化 的 处 
理 器 上 ) 是 错误 的 。 如 果 并 行程 序 是 气象 模拟 应 用 ， 则 当 新 增 处 理 器 时 ， 我 们 可 能 更 倾向 于 
在 模型 中 添加 更 多 细节 ， 在 问题 规模 增 大 的 同时 ， 保 持 运行 时 间 不 变 。 在 这 种 情况 下 ， 利 用 
Amdahl 定律 或 者 问题 规模 固定 时 的 加 速 比 来 衡量 并 行程 序 的 故 率 时 ， 额 外 人 处理 器 所 能 带 来 的 
优势 可 能 并 不 明显 。 

为 说 明 这 一 点 ， 我 们 重 写 加 速 比 公式 ， 得 出 了 PP 个 处 理 右 系统 上 能 取得 的 加 速 比 性 能 。 
在 前 面 的 式 (2-2) 中 ， 我 们 得 到 了 个 处 理 需 的 执行 时 间 Toal.) 是 根据 算法 在 单个 处 理 器 上 
串 行 部 分 和 并 行 部 分 的 执行 时 间 推 导出 来 的 。 在 此 ， 我 们 反 行 其 道 ， 根 据 串 行 和 并 行 部 分 在 
P 个 处 理 器 上 的 执行 时 间 推 导出 Tioa(1)。 

Tou(1) = Tou t PEs (P) * Tuas ( 2-11) 


现在 我 们 定义 所 谓 的 可 扩展 的 串 行 比率 ， 表 示 为 ya， 如 式 (2-12) 所 示 : 


dio 7 Tinalization ( 2-12 
Y scaled ‘a T ( P) ) 


HATH HG HR PORE ee 


从 而 有 : 


Tua(1) = Y saci Lom (P) EPI =Y ea) Teai(P) ( 2-13) 
通过 对 加 速 比 公式 (2-3 ) 的 重 写 和 简化 ， 我 们 得 到 了 可 扩展 (或 者 固定 时 间 ) 加 速 比 “。 
S(P) = P + (1- P)y ue (2-14) 


这 个 公式 得 到 的 加 速 比 与 Amdahl EARE, (A, “Sb a ee HOST, 
可 以 考虑 改变 问题 的 规模 。 由 于 yscaes 依赖 于 已 ,极限 值 不 能 直接 获得 ， 从 而 可 以 得 到 与 
Amdahl 定律 相同 的 结果 。 尽 管 如 此 ， 假 如 我 们 取 己 的 极限 值 ， 并 且 保持 Tompe 不 变 ， 因 此 
Y scatea 的 值 是 和 常量。 这 种 情形 可 以 解释 为 : 当 处 理 天 数目 增加 时 ， 通 过 增加 问题 规模 来 保持 算 
法 总 的 执行 时 间 不 变 (这 隐 式 地 假定 了 伴随 着 问题 规模 的 增长 ， 蝇 行 部 分 的 执行 时 间 保 持 不 
变 )。 在 这 种 情形 下 ， 加 速 比 与 P 呈 线性 关系 。 因 此 ， 当 处 理 右 数目 较 少 ， 通 过 增加 更 多 的 处 
理 带 来 解决 某 个 固定 的 问题 时 ,使 用 Amdahl 定律 来 预测 加 速 比 的 极限 值 比较 合适 。 如 有 果 问 
题 规模 随 着 处 理 器 数据 的 增加 而 增 大 ，Amdahl 定律 就 不 太 适 用 了 。 文 献 [SN90] 对 于 这 两 种 
加 速 比 模型 ， 以 及 内 存 固 定 的 加 速 比 版 本 进行 了 讨论 。 


2.6 通信 
2.6.1 延迟 和 带宽 


一 个 简单 而 实用 的 模型 对 消息 传递 的 总 时 间 的 描述 如 下 : 一 个 固定 开销 加 上 一 个 依赖 于 
消息 长 度 的 可 变 开 销 。 


之 


| a ES = "ER ( 2-15 ) 


这 个 固定 开销 a 称 为 延迟 ， 实 际 上 它 是 指 在 通信 介质 上 发 送 一 条 空 消息 所 花费 的 时 间 ， 
即 从 发 送 函 数 被 调用 到 接收 方 完成 数据 接收 的 时 间 。 延 迟 (以 某 种 合适 的 时 间 单 位 给 出 ) 包 


括 : 软件 和 网 络 硬 件 开销 、 消 息 在 通信 介质 中 的 传输 时 间 。 和 带宽 ( 以 某 种 合适 的 字 节 单位 给 


出 ) 是 通信 介质 容量 的 度量 。N 表示 消息 的 长 度 。 

由 于 延迟 和 带宽 都 依赖 于 所 使 用 的 硬件 ， 以 及 实现 通信 协议 的 软件 质量 ， 因 此 在 系统 之 
间 差 异 较 大 。 这 些 值 能 够 通过 一 些 简单 的 基准 程序 [DD97] 测量 ， 有 时 测量 a 和 8 的 值 是 非 
党 有 价值 的 ， 因 为 它们 能 够 指导 优化 ， 用 于 改善 通信 性 能 。 例 如 ， 在 一 个 a 值 相对 较 大 的 系 
统 中 ， 尝 试 这 样 重 构 程 序 是 值得 的 ， 即 将 程序 存在 的 大 量 短 消息 聚集 成 少量 长 消息 进行 发 送 。 
[ BBC'03 | 中 给 出 了 最 近 几 个 系统 的 数据 。 


26.2 S Bue TTE EUR SER DS 


如 果 我 们 进一步 观察 单个 处 理 器 上 单个 任务 的 计算 时 间 ， 会 发 现 它 可 以 粗略 地 划分 成 计 
算 时 间 、 通 信 时 间 和 闲置 时 间 。 通 信和 时 间 指 发 送 和 接收 消息 所 花 的 时 间 C 因此 仅 适 合 于 分 布 
式 内 存 机 融 )， 而 闲置 时 间 是 指 没 有 任务 工作 的 时 间 ， 因 为 任务 正在 等 待 某 个 事件 ， 例 如 ， 释 
放 一 个 被 其 他 任务 所 占用 的 资源 。 


加 ”这 个 公式 也 称 为 Gustafson 定律 ， 由 E. Barsis 在 [ Gus88 ] 中 提出 。 


16 $2F 


通常 情况 下 ， 当 任务 等 待 系统 中 传播 的 某 条 消息 时 ， 可 能 会 出 现 闲 置 。 当 发 送 一 条 消息 
( 由 于 UE 执行 之 前 等 待 一 条 应 答 消息 ) 或 者 接收 一 条 消息 时 ， 都 可 能 发 生 闲 置 。 有 时 通过 重 
构 任务 可 以 消除 这 种 情形 : 通过 发 送 消 息 和 /或 侦 听 (post ) 接收 操作 ( 也 就 是 表示 它 想 接收 
消息 )， 然 后 继续 计算 。 这 使 得 程序 员 可 以 重合 计算 和 通信 。 图 2-7 展示 了 使 用 该 技术 的 一 个 
示例 。 这 种 消息 传递 方式 对 于 程序 员 而 言 更 加 复杂 ， 因 为 等 待 接收 完成 的 任务 是 在 与 通信 完 
全 重合 之 后 ， 所 以 ,程序 员 必 须 谨 慎 对 待 。 





图 2-7 没有 ( 左 ) AA (A) 通信 与 计算 重 准 支持 的 通信 。 尽 管 在 右边 的 计算 中 UE0 由 于 
等 待 UE 1 的 应 答 ， 仍 然 存 在 一 些 闲 置 时 间 。 由 于 UE 1 启动 更 早 , 减少 了 闲置 时 间 ， 
并 且 计 算 所 需要 的 总 时 间 也 更 少 


男 外 一 种 在 许多 并 行 计算 机 中 使 用 的 技术 是 给 每 个 PE 分 配 多 个 U， 以 便当 一 个 UE 等 
待 通信 时 ， 可 以 通过 上 下 文 切 换 到 另外 一 个 UE 上 使 处 理 器 保持 繁忙 。 这 也 是 延迟 隐藏 的 一 
个 示例 ， 越 来 越 多 地 应 用 于 现代 高 性 能 计算 机 系统 中 ， 最 著名 的 示例 是 来 自 于 Cray 公司 的 
MTA 系统 | ACC 90 |. 


2.7 BEING 


本 章 简要 介绍 了 并 行 计 算 中 使 用 的 一 些 概 念 和 术语 。 术 语 的 定义 可 参见 术语 表 ， 同 时 也 
探讨 了 并 行 计算 中 主要 使 用 的 编程 环境 : OpenMP, MPI 和 Java。 本 书 通 篇 将 在 示例 中 使 用 这 
三 种 编程 环境 。 关 于 OpenMP, MPI 和 Java 的 更 多 细节 ， 以 及 如 何 使 用 它们 编写 并 行程 序 将 
在 附录 中 介绍 。 
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Patterns for Parallel Programming 


“寻找 并 发 性 ”设计 空间 





3.1 关于 设计 空间 


软件 设计 者 从 事 多 个 领域 的 工作 。 设 计 的 过 程 从 问题 领域 着 手 ， 该 领域 中 的 设计 元 素 直 
接 与 解决 的 问题 相关 (如 流体 流动 、 决 策 树 、 原 子 等 )。 软 件 是 设计 的 最 终 目标 ， 因 此 在 某 一 
AE, 设计 元 素 变 成 与 程序 相关 的 某 些 因 素 ( 如 数据 结构 和 软件 模型 )。 我 们 将 这 称 为 编程 领 
域 。 尽 管 人 们 通常 尝试 尽快 进入 编程 领域 ,但 是 过 早 地 走出 问题 领域 的 设计 者 可 能 会 错过 一 
些 重 要 的 设计 选项 。 

在 并 行 编程 中 尤其 如 此 ， 并 行程 序 借助 于 在 不 同 的 处 理 单元 上 处 理 问 题 中 不 同 的 部 分 ， 
尝试 使 用 更 少 的 时 间 解 决 更 大 的 问题 。 尽 管 如 此 ， 当 问题 包含 可 挖掘 的 并 发 性 ， 换 言 之 ， 多 
个 活动 或 者 任务 能 够 同时 执行 时 ， 它 才 可 行 。 但 是 ， 当 问题 映射 到 编程 领域 时 ， 将 很 难看 到 
挖掘 并 发 性 的 机 会 。 

因此 ， 程 序 员 应 该 通过 分 析 问 题 领域 中 暴露 的 可 挖掘 的 并 发 性 来 开始 设计 并 行 方法 。 我 
们 对 设计 空间 的 这 种 分 析 过 程 称 为 寻找 并 发 性 (Finding Concurrency ) 设计 空间 。 设 计 空 间 中 
模式 有 助 于 识别 和 分 析 问 题 中 可 挖掘 的 并 发 性 。 这 步 完 成 之 后 ， 选 择 草 法 结构 空间 中 一 个 或 
多 个 模式 ， 用 于 设计 合适 的 算法 结构 以 挖掘 已 识别 的 并 发 性 。 

该 设计 空间 及 其 所 在 模式 语言 中 位 置 的 总 体 概 况 如 图 3-1 所 示 。 





3-1 寻找 并 发 性 设计 空间 及 其 所 在 模式 语言 中 位 置 的 总 体 概况 
在 一 个 熟悉 领域 工作 的 有 经 验 设计 者 ， 可 以 迅速 发 现 可 挖掘 的 并 行 性 ， 并 直接 投入 到 算 
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法 结构 ( Algorithm Structure ) 设计 空间 的 模式 中 。 
3.1.1 概述 


在 开始 使 用 设计 空间 中 的 这 些 模式 之 前 ， 算 法 设计 者 首先 必须 考虑 所 要 解决 的 问题 ， 并 
且 明 确 是 否 有 必要 创建 一 个 并 行程 序 : 问题 规模 是 否 足够 大 ， 结 果 是 否 意义 重大 ， 以 至 于 必 
须 采 用 并 行 方 法 来 更 快 地 解决 问题 ? 如 果 这 样 ， 那 么 下 一 步 就 是 确保 问题 中 的 关键 特征 和 数 
据 元 素 被 很 好 地 诠释 。 最 后 ， 设 计 者 需要 理解 问题 中 哪些 部 分 是 计算 密集 的 ， 因 为 并 行 化 任 
务 的 精力 应 当 聚 焦 在 这 些 部 分 。 

在 分 析 完 成 之 后 ， 就 可 以 使 用 寻找 并 发 性 设计 空间 中 的 这 些 模 式 来 开始 设计 一 个 并 行 算 
法 了 。 设 计 空 间 中 的 这 些 模 式 可 以 分 成 3 组 。 

e 分 解 模 式 (decomposition pattern ) : 使 用 两 种 分 解 ( 任务 分 解 和 数据 分 解 ) 模式 可 以 
将 问题 分 解 成 多 个 能 够 并 发 执行 的 小 片段 。 

e 依赖 性 分 析 模 式 (dependency analysis pattern): 该 组 包含 3 种 模式 ， 用 于 任务 分 组 和 
任务 之 间 的 依赖 性 分 析 ; 任务 分 组 、 任 务 排 序 和 数据 共享 。 通 常 这 是 模式 的 使 用 顺序 。 
尽管 如 此 ， 和 常常 需要 重新 使 用 另 一 种 模式 ， 甚 至 可 能 需要 重新 使 用 分 解 模式 。 

e 设计 评估 模式 〈design evaluation pattern ) : 这 是 设计 空间 中 的 最 后 一 种 模式 ， 通 过 分 
析 目 前 已 经 完成 的 工作 ， 指 引 算法 设计 者 转移 到 算法 结构 设计 空间 中 的 模式 。 这 种 模 
式 是 非常 重要 的 ， 因 为 最 佳 的 设计 通常 不 是 首次 尝试 就 能 发 现 的 ， 越 早 识别 出 设计 缺 
陷 ， 就 越 容易 纠正 它们 。 通 常情 况 下 ， 设 计 空 间 中 模式 的 使 用 是 一 个 迭代 过 程 。 


3.1.2 ”使 用 分 解 模式 


设计 一 个 并 行 算法 的 第 一 步 是 将 问题 分 解 为 多 个 能 够 并 发 执行 的 单元 。 我 们 可 以 从 如 下 
两 个 维度 对 分 解 进行 考虑 。 

© 任务 分 解 维 将 问题 看 成 一 种 指令 流 ， 指 令 流 中 的 指令 能 够 分 解 为 多 个 序列 CERO E 

务 )， 这 些 任 务 能 够 同时 执行 。 为 了 能 够 高 效 地 进行 计算 ， 组 成 任务 的 指令 操作 应 当 
尽量 独立 于 其 他 任务 中 的 操作 。 

e 数据 分 解 维 关注 于 任务 所 需要 的 数据 ， 以 及 如 何 将 数据 划分 成 多 个 不 同 的 块 。 仅 当 数 

据 块 能 够 相对 独立 地 操作 时 ， 与 数据 块 相 关联 的 计算 才能 高 效 地 执行 。 

从 两 个 不 同 的 维度 对 问题 分 解 进行 考虑 稍微 有 些 机 械 。 因 为 任务 分 解 暗含 了 数据 分 解 ， 
反之 亦 然 ; 所 以 ， 这 两 种 分 解 实 际 上 是 同一 个 基础 分 解 的 两 个 不 同方 面 。 但 是 ， 我 们 仍 将 它 
们 分 成 为 独立 的 维度 ， 是 因为 通过 强调 分 解 中 的 某 一 维度 ， 问 题 分 解 通常 能 够 很 自然 地 进行 
下 去 。 通 过 对 它们 进行 区 分 ， 我 们 显 式 地 强调 了 这 种 设计 ， 使 设计 者 更 容易 理解 。 


3.1.3 示例 的 背景 知识 


本 节 给 出 了 在 几 种 模式 中 所 使 用 的 一 些 示例 的 背景 知识 。 你 可 以 先 暂时 跳 过 本 节 ， 在 后 
面 阅读 中 发 现 某 种 模式 涉及 相应 示例 时 ， 再 重新 阅读 本 节 。 

医学 成 像 。PET (Positron Emission Tomography， 正 电子 发 射 计 算 机 断层 扫描 ) 提供 了 
一 个 重要 的 诊断 工具 ,使 得 内 科 医 生 能 够 观察 到 放射 性 物质 是 如 何 穿 透 病人 身体 的 。 遗 憾 的 
是 ， 由 放射 射线 的 分 布 所 组 成 的 图 像 具 有 很 低 的 分 辨 率 ， 因 为 射线 在 穿 透 身体 时 会 发 散 。 根 
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据 绝对 射线 强度 进行 推断 也 是 比较 困难 的 ， 因 为 穿 透 身体 的 不 同 路 径 对 射线 强度 的 削弱 程度 
不 同 。 
为 了 解决 这 个 问题 ， 使 用 射线 如 何在 身体 中 进行 传播 的 模型 来 纠正 这 个 问题 。 通 常 的 方 
法 是 构造 一 个 Monte Carlo 模型 ，Ljungberg fll King [LK98] 对 该 模型 进行 了 描述 。 在 身体 内 
随机 选择 某 一 点 ， 假 设 在 该 点 发 射 射线 (通常 是 伽 马 射 线 )， 并 跟踪 射线 的 轨迹 。 当 粒子 Ct 
线 ) 穿 过 身体 时 ， 它 会 被 所 经 过 的 不 同 器 官 削弱 ， 直 到 离开 身体 ， 并 被 相机 模型 使 用 ， 从 而 
定义 了 一 条 全 轨迹 。 为 了 生成 一 个 具有 统计 意义 的 模拟 ,需要 跟踪 成 千 上 万 条 轨迹 。 
这 个 问题 可 以 采取 两 种 方式 进行 并 行 化 。 由 于 每 条 轨迹 都 是 独立 的 ， 因 此 可 以 通过 将 每 
条 轨迹 与 一 个 任务 关联 起 来 对 这 个 应 用 进行 并 行 化 。 这 种 方法 将 在 3.2 节 中 进行 讨论 。 另 一 
种 方法 是 将 身体 划分 为 多 个 部 分 ， 然 后 将 这 些 不 同 部 分 分 配给 不 同 的 处 理 单元 。 该 方法 将 在 
3.3 节 中 进行 讨论 。 
线性 代数 。 线 性 代数 在 应 用 数学 中 是 一 个 重要 的 工具 : 它 提 供 了 分 析 大 型 线性 等 式 系统 
的 解 所 需要 的 工具 。 典 型 的 线性 代数 问题 为 : 对 于 矩阵 4 和 向 量 5», 什么 样 的 x 值 满足 下 式 : 
dita (3-1) 
在 线性 代数 中 ， 式 (3-1) 中 的 矩阵 4 占有 中 心地 位 。 许 多 问题 可 以 表示 为 这 个 矩阵 的 变 
换 。 这 些 变换 依靠 于 矩阵 乘法 操作 
| C - T*A (3-2) 
如 果 T、4 和 C 是 秩 为 W 的 方 阵 ， 则 和 矩阵 相 乘 得 到 矩阵 C 中 的 每 一 个 元 素 可 以 根据 下 式 
求 得 : 
Gy 三 Yn Au (3-3) 


式 中 ， 下 标 表示 和 矩阵 的 对 应 的 元 素 。 换 句 话说 ， 和 矩阵 C 第 i 行 和 第 j 列 的 元 素 是 矩阵 7 
第 i 行 和 和 矩阵 4 第 /7 列 元 素 的 点 积 。 因 此 ， 计 算 具 有 Xe 个 元 素 的 矩阵 C 中 每 一 个 元 素 需 要 N 
次 乘法 和 N-1 次 加 法 ， 使 得 矩阵 乘法 的 总 体 计算 复杂 度 为 O (Ne )。 

对 和 矩阵 乘法 操作 进行 并 行 化 的 方法 有 很 多 。 采 用 的 并 行 策略 要 么 使 用 基于 任务 的 分 解 
(正如 3.2 节 所 讨论 的 一 样 )， 也 可 以 使 用 基于 数据 的 分 解 (正如 3.3 节 所 讨论 的 一 样 )。 

分 子 动力 学 。 分 子 动力 学 用 于 对 大 型 分 子 系统 的 运动 进行 仿真 。 例 如 ， 分 子 动力 学 仿真 
显示 了 大 型 蛋白 质 是 如 何 移动 的 ， 以 及 不 同形 状 的 药物 是 如 何 与 蛋白 质 相 互 作用 的 。 因 此 ， 
分 子 动力 学 在 配药 行业 中 占据 非常 的 重要 地 位 并 不 奇怪 。 对 于 从 事 并 行 计算 的 计算 机 科学 家 ， 
它 也 是 一 个 非常 有 用 的 测试 用 例 : 简单 明了 ， 问 题 规模 很 大 ， 很 难 高 效 地 并 行 化 。 因 此 ， 它 
已 经 成 为 许多 研究 领域 中 的 主题 [Mat94、PH95、Pli95]。 

分 子 动力 学 的 基本 思想 是 将 分 子 看 作 球 的 大 型 集合 ， 球 之 间 通 过 弹簧 进行 连接 。 球 表示 
分 子 结构 中 的 原子 ， 而 弹 筑 表示 原子 之 间 的 化 学 键 。 分 子 动力 学 模拟 是 一 个 明确 的 时 间 步 过 
程 。 在 每 个 时 间 步 中 ， 计 算出 每 个 原子 所 受 的 作用 力 ， 然 后 使 用 标准 的 经 典 力学 技术 来 计算 
作用 力 是 如 何在 原子 之 间 进 行 移动 的 。 这 个 过 程 在 每 个 时 间 步 中 重复 进行 ， 进 而 计算 出 分 子 
系统 的 一 条 轨迹 。 | 

计算 化 学 键 (“弹簧 ” ) 所 产生 的 作用 力 相 对 比较 简单 。 这 些 力 对 应 于 化 学 键 本 身 的 振动 
和 旋转 。 它 们 是 短 距离 力 ， 能 够 根据 共享 化 学 键 的 少数 原子 的 信息 来 计算 。 主 要 的 困难 源 自 
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于 原子 本 身 具 有 部 分 电荷 。 因 此 ， 当 原子 通过 化 学 键 仅 与 少数 相 邻 原子 进行 相互 作用 时 ， 电 
荷 将 使 得 每 个 原子 对 其 他 每 个 原子 产生 一 个 作用 力 。 

这 是 著名 的 入 体 (N-body) 问题 ， 需 要 计算 大 约 N^ 项 来 寻找 这 些 非 化 学 键 作 用 力 。 因 
为 很 大 ( 几 万 或 数 十 万 )， 并 且 仿 真 中 的 时 间 步 数目 非常 巨大 (好 几 万 )， 所 以 计算 这 些 
非 化 学 键 作 用 力 所 需 要 的 时 间 占 据 了 整个 仿真 中 主要 的 计算 时 间 。 于 是 ， 人 们 提出 了 几 种 用 
于 降低 求解 广 体 问题 所 需要 工作 量 的 方法 。 在 此 仅 讨论 其 中 最 简单 的 一 种 : 截止 法 (cutoff 
method )。 

该 方法 的 思想 非常 简单 。 即 使 每 个 原子 对 其 他 所 有 原子 都 产生 一 个 作用 力 ， 这 个 力也 将 
随 着 原子 之 间距 离 的 增 大 而 减少 。 因 此 ， 可 以 确定 一 个 距离 ， 在 该 距离 之 外 ， 由 于 力 的 作用 
很 小 ， 可 以 忽略 。 通 过 忽略 超出 这 个 截止 点 的 原子 ， 问 题 被 归 约 为 O(N*n)， 其 中 , n d 
止 空间 范围 内 的 原子 数目 ,通常 只 有 几 百 个 。 但 计算 量 仍 然 巨 大 ， 它 几乎 占据 了 整个 仿真 时 
间 ， 但 至 少 问题 已 经 解决 了 。 

这 个 仿真 存在 很 多 细节 ， 但 基本 过 程 如 图 3-2 所 示 。 


Int const N // number of atoms 


Array of Real :: atoms (3,N) //3D coordinates 

Array of Real :: velocities (3,N) //velocity vector 
Array of Real :: forces (3,N) //force in each dimension 
Array of List :: neighbors(N) //atoms in cutoff volume 


loop over time steps 
vibrational_forces (N, atoms, forces) 
rotational_forces (N, atoms, forces) 
neighbor_list (N, atoms, neighbors) 
non_bonded_forces (N, atoms, neighbors, forces) 
update_atom_positions_and_velocities( 
N, atoms, velocities, forces) 


physical_properties ( ... Lots of stuff ... ) 
end loop 





图 3-2” 分 子 动力 学 示例 的 伪 代 码 


主要 的 数据 结构 包括 : 原子 位 置 (atoms )、 每 个 原子 的 速度 (velocity )、 作 用 在 每 个 原 
子 上 的 作用 力 (forces )， 以 及 每 个 原子 截止 距离 范围 内 的 原子 列表 (neighbors )。 程 序 本 事 
是 一 个 时 间 步 循环 (time-stepping loop )， 循 环 中 的 每 次 迭代 计算 短 距离 力 ， 更 新 邻 域 列表 ， 
然后 寻找 非 化 学 键 作 用 力 。 每 个 原子 上 的 力 计算 出 来 后 ， 借 助 一 个 简单 的 普通 微分 公式 来 计 
算 原 子 的 位 置 和 速度 。 然 后 更 新 基于 原子 运动 的 物理 属性 ， 进 入 下 一 个 时 间 步 。 

目前 存在 多 种 可 以 并 行 化 分 子 动力 学 问题 的 方法 。 我 们 考虑 最 常用 的 方法 ， 从 任务 分 解 
(在 3.2 节 中 讨论 ) 开始 ， 紧 接着 进行 相关 数据 分 解 (在 3.3 节 中 讨论 )。 这 个 示例 展示 了 如 何 
组 合 这 两 种 分 解 模式 来 设计 并 行 算法 。 


3.2 任务 分 解 模式 


1. 问题 
如 何 将 一 个 问题 分 解 成 多 个 可 以 并 发 执行 的 任务 ? 
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2. 背景 

每 一 个 并 行 算法 设计 的 出 发 点 都 是 相同 的 ， 即 很 好 地 理解 待 求解 的 问题 。 程 序 员 必 须 理 
解 问题 的 哪些 部 分 是 计算 密集 的 部 分 ， 关 键 数据 结构 以 及 随 着 问题 求解 的 展开 如 何 使 用 数据 。 

下 一 步 是 定义 组 成 问题 的 任务 以 及 任务 隐 含 的 数据 分 解 。 基 本 上 ， 每 个 并 行 算 法 都 包含 
一 个 能 够 并 发 执行 的 任务 集合 。 面 临 的 主要 挑战 是 挖掘 这 些 任务 和 构建 一 个 算法 ， 使 这 些 任 
务 能 够 并 发 执行 。 | 

在 某 些 情况 下 ， 问 题 能 够 很 自然 地 分 解 为 一 个 独立 的 (或 接近 独立 ) 任务 集合 ， 并 能 够 
很 容易 开始 一 个 基于 任务 的 分 解 。 在 其 他 情况 中 ， 隔 离 任务 可 能 非常 困难 ， 因 此 ， 更 好 的 切 
入 点 是 数据 分 解 (将 在 3.3 节 对 此 进行 讨论 )。 通 常 无 法 确定 哪 一 种 方法 是 最 佳 的 ， 算 法 设计 
者 经 常 需要 同时 考虑 这 两 种 方法 。 

尽管 如 此 ， 无 论 切 人 点 是 基于 任务 的 分 解 还 是 基于 数据 的 分 解 ， 并 行 算法 最 终 都 需要 多 
个 可 以 并 发 执行 的 任务 ， 因 此 ， 必 须 能 够 识别 出 这 些 任务 。 

3. 面临 的 问题 

在 这 一 点 上 ， 影 响 设 计 的 主要 因素 是 : 灵活 性 、 效 率 和 简单 性 。 

灵活 性 。 设 计 中 的 灵活 性 将 使 得 它 能 够 适应 不 同 的 实现 需要 。 例 如 ， 使 设计 局 限于 特定 
的 计算 机 系统 或 者 编程 风格 ， 通 常 不 是 一 个 明智 的 选择 。 

效率 。 仅 当 并 行程 序 能 够 随 着 并 行 计算 机 的 规模 有 效 地 扩展 (减少 运行 时 间或 者 内 存 使 
HE) 时 ， 它 才 是 有 用 的 。 对 于 任务 分 解 ， 这 意味 着 我 们 需要 足够 多 的 任务 让 所 有 PE 保持 繁 
忙 ， 每 个 任务 具有 足够 的 工作 量 ， 丈 补 用 于 管理 任务 之 间 依 赖 所 带 来 的 开销 。 但 是 ， 基 于 效 
率 的 驱动 可 能 会 导致 缺乏 灵活 性 的 复杂 分 解 。 

简单 性 。 任 务 分 解 需要 足够 复杂 以 完成 工作 ， 但 也 需要 足够 简单 以 便于 程序 调试 和 维护 。 

4. 解决 方案 

一 个 有 效 的 任务 分 解 的 关键 是 确保 任务 之 间 充 分 地 独立 ， 以 使 得 管理 任务 之 间 依 赖 所 带 
来 的 开销 仅 占 程序 整个 执行 时 间 的 一 小 部 分 。 确 保 任务 的 执行 能 够 均匀 地 分 配 在 所 有 PE 上 也 
是 非常 重要 的 ( 负载 平衡 问题 )。 

在 一 个 理想 世界 中 ， 编 译 器 可 以 为 程序 员 控 气 任务。 遗憾 的 是 ， 这 几乎 从 来 没有 出 现 过 。 
取而代之 的 是 ， 必 须 具 备 问题 背景 知识 并 熟悉 实现 的 代码 ， 然 后 手动 完成 。 在 某 些 情况 下 ， 
可 能 需要 完全 重新 将 问题 构造 为 男 一 种 形式 ， 以 暴露 相对 独立 的 任务 。 

在 基于 任务 的 分 解 中 ,我 们 将 问题 看 作 由 不 同 任务 组 成 的 一 个 集合 ， 特 别 注意 的 是 : 

o 解决 问题 所 采取 的 策略 。( 这 些 策略 能 够 足以 让 目标 机 器 上 的 处 理 单元 保持 繁忙 吗 ? ) 

。 这 些 策略 是 截然 不 同 且 相对 独立 的 吗 ? 

在 第 一 遍 中 ,我 们 尽 可 能 识别 出 尽 可 能 多 的 任务 。 开 始 时 具有 很 多 任务 并 在 随后 合并 它 
们 ， 要 比 开 始 具 有 太 少 的 任务 并 在 随后 拆 分 它们 容易 得 多 。 

可 以 在 许多 不 同 的 地 方 找到 任务 。 

e 在 某 些 情况 下 ， 每 个 任务 对 应 于 函数 的 一 个 不 同调 用 。 为 每 个 函数 调用 定义 一 个 任务 

有 时 候 称 为 功能 分 解 。 
© 寻找 任务 的 另 一 个 地 方位 于 算法 内 循环 的 不 同 迭 代 中 。 如 果 循 环 的 每 一 层 迭代 是 独立 
的 ， 并 且 具 有 足够 多 的 迭代 ， 则 基于 任务 的 分 解 能 够 很 好 地 起 作用 ， 将 每 一 层 迭 代 映 
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射 到 一 个 任务 。 这 种 基于 任务 分 解 的 类 型 有 时 候 称 为 循环 分 割 (loop-splitting ) 算法 。 
e 任务 在 数据 驱动 的 分 解 中 也 起 着 重要 的 作用 。 在 这 种 情况 下 ， 大 型 数据 结构 将 被 分 
解 ， 多 个 执行 单元 并 发 地 更 新 数据 结构 的 不 同 块 。 在 这 种 情形 下 ， 任 务 是 单个 数据 块 
上 的 更 新 工作 。 | 
另外 ， 也 需要 注意 在 3.3 节 中 给 出 的 问题 。 
e 灵活 性 。 在 产生 任务 数目 方面 ， 设 计 需 要 具备 灵活 性 。 通 常 通过 适当 的 尺度 参数 化 任 
务 的 数目 和 大 小 来 完成 ， 使 设计 能 够 适应 多 种 拥有 不 同 处 理 器 数目 的 并 行 计 算 机 。 
e 效率 。 在 任务 分 解 中 ， 需 要 考虑 两 个 主要 的 效率 问题 。 首 先 ， 每 个 任务 必须 包括 足够 
量 的 工作 ， 以 弥补 创建 任务 和 处 理 它们 的 依赖 性 所 带 来 的 开销 。 其 次 ,任务 的 数目 应 
当 足 够 大 ， 在 整个 计算 期 间 ， 使 得 所 有 的 执行 单元 都 保持 繁忙 ， 并 且 做 有 用 的 工作 。 
e 简单 性 。 任 务 的 定义 方式 便于 调试 和 维护 。 如 果 可 能 ， 所 定义 的 任务 应 当 可 以 重用 解 
决 相关 问题 的 现 有 串 行 程序 。 
识别 出 任务 后 ， 下 一 步 就 是 查看 任务 中 暗含 的 数据 分 解 。 数 据 分 解 模式 将 有 助 于 这 种 
分 析 。 | 
5. 示例 
医学 成 像 。 考 虑 3.1.3 节 描 述 的 医学 成 像 问 题 。 在 这 个 应 用 中 ， 身 体 模型 中 某 一 点 的 选择 
是 随机 的 ， 在 该 点 上 发 生 放射 性 训 变 ， 并 跟踪 发 射 粒 子 的 轨迹 。 为 了 创建 一 个 具有 统计 意义 
的 仿真 ， 需 要 跟踪 成 千 上 万 条 轨迹 。 
将 一 个 任务 与 每 一 条 轨迹 相关 联 是 很 自然 的 。 并 发 管理 这 些 任 务 非常 简单 ， 因 为 它们 之 
间 完 全 独立 。 另 外 ， 具 有 大 量 数目 的 轨迹 ， 因 此 将 具有 很 多 任务 ， 这 使 得 分 解 能 够 适合 于 多 
种 计算 机 系统 ， 从 具有 较 少 处 理 单 元 的 共享 内 存 系 统 到 具有 数 百 个 处 理 单 元 的 大 型 集群 。 
基本 任务 定义 完成 后 ， 现 在 我 们 考虑 相应 的 数据 分 解 ， 即 定义 与 每 个 任务 相关 联 的 数据 。 
每 个 任务 需要 拥有 定义 轨迹 的 信息 ,但 并 不 是 全 部 : 任务 同样 需要 访问 身体 模型 。 尽 管 可 能 
在 问题 描述 中 并 不 明显 ， 但 身体 模型 可 能 非常 庞大 。 由 于 它 是 一 个 只 读 模 型 ， 因 此 在 一 台 高 
效 的 共享 内 存 系统 中 将 不 会 产生 问题 ; 每 个 任务 在 需要 时 能 够 读 取 数 据 。 但 是 ， 如 果 目 标 平 
台 基 于 分 布 式 内 存 的 体系 结构 ， 身 体 模型 需要 复制 到 每 个 PE 上 。 这 将 是 非常 耗 时 的 ， 并 且 会 
耗费 大 量 的 内 存 。 当 系统 中 每 个 PE 上 具有 较 少 的 内 存 ， 并 且 PE 之 间 网 络 的 速度 较 慢 时 ， 基 
于 身体 模型 的 问题 分 解 可 能 会 更 加 高 效 。 
这 在 并 行 编程 中 是 常见 的 情形 : 许多 问题 主要 基于 数据 或 者 主要 基于 任务 进行 分 解 。 如 
果 基 于 任务 的 分 解 避免 了 分 解 和 分 配 复杂 的 数据 结构 ， 则 编写 程序 和 调试 都 将 变 得 非常 简单 。 
另 一 方面 ， 如 果 内 存 或 网 络 带宽 是 一 个 限制 因素 ， 则 集中 于 数据 的 分 解 可 能 会 更 加 高 效 。 一 
种 分 解 方法 比 另 一 种 方法 “好 ”并 不 是 什么 问题 ， 问 题 是 需要 平衡 机 器 的 需求 和 程序 员 的 需 
要 。3.3 节 将 对 此 进行 更 加 详细 的 讨论 。 
和 矩阵 乘法 。 考 虑 两 个 矩阵 相 乘 ( C=4*B )， 描 述 见 3.1.3 节 。 对 于 这 个 问题 ， 我 们 可 以 产 
生 一 个 基于 任务 的 分 解 ， 分 解 方式 是 将 最 终结 果 和 矩阵 的 每 个 元 素 的 计算 作为 一 个 独立 的 任务 。 
每 个 任务 需要 访问 A 的 一 行 和 B 的 一 列 。 这 种 分 解 方 式 的 好 处 是 所 有 的 任务 都 是 独立 的 。 因 
为 任务 间 共 享 的 所 有 数据 (A AB) 是 只 读 的 ， 所 以 在 一 个 共享 内 存 环境 中 很 容易 实现 。 
但 是 这 个 算法 的 性 能 会 很 差 ， 考虑 到 这 3 个 矩阵 都 是 秩 为 YX 的 方 阵 。 为 了 计算 C 中 的 
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每 一 个 元 素 ， 需 要 4 中 的 NN 个 元 素 和 B 中 的 入 个 元 素 ， 对 于 NN 次 乘法 /加 法 操作 ， 将 导致 
2N 次 内 存 访 问 。 内 存 的 访问 速度 比 浮 点 算术 运算 慢 ， 因 此 内 存 子 系统 的 带宽 将 限制 算法 的 
性 能 。 

较 好 的 策略 是 设计 一 种 这 样 的 算法 : 能 够 最 大 化 重用 已 加 载 到 人 处理 器 缓存 中 的 数据 。 我 
们 可 以 采用 两 种 不 同方 式 来 得 到 这 种 算法 。 首 先 ， 将 前 面 定义 的 任务 进行 分 组 ,使 得 使 用 矩 
阵 4 和 和 矩阵 召 中 的 相似 元 素 的 任务 在 同一 个 UE E ( 见 3.4 节 )。 或者， 可 以 从 数据 分 解 开 
始 ， 设 计算 法 的 切入 点 就 围绕 着 矩阵 被 装载 到 缓存 中 的 方式 进行 。3.3 节 将 对 这 个 示例 进一步 
讨论 。 

分 子 动力 学 。 考 虑 3.1.3 节 所 描述 的 分 子 动力 学 问题 。 这 个 示例 的 伪 代 码 又 一 次 显示 在 
图 3-3 中 。 


Int const N // number of atoms 


Array of Real :: atoms (3,N) //3D coordinates 

Array of Real :: velocities (3,N) //velocity vector 
Array of Real :: forces (3,N) //force in each dimension 
Array of List :: neighbors(N) //atoms in cutoff volume 


loop over time steps 
vibrational_forces (N, atoms, forces) 
rotational_forces (N, atoms, forces) 
neighbor_list (N, atoms, neighbors) 
non_bonded_forces (N, atoms, neighbors, forces) 
update_atom_positions_and_velocities( 
N, atoms, velocities, forces) 
physical_properties ( ... Lots of stuff ... ) 
end loop 





图 3-3 “分 子 动力 学 示例 的 伪 代 码 


在 进行 任务 分 解 前 ， 需 要 更 好 地 理解 问题 的 某 些 细节 。 首 先 ，neighbor list() 的 计算 是 非 
常 耗 时 的 。 计 算 的 核心 是 对 每 个 原子 进行 循环 ， 在 循环 体 的 内 部 检查 其 他 所 有 原子 ， 以 确定 
其 他 原子 是 否 落 人 该 原子 的 截止 空间 。 洗 运 的 是 ， 时 间 步 非常 小 ， 并 且 在 任意 给 定 的 时 间 步 
中 原子 的 移动 距离 很 小 。 因 此 ， 这 个 耗 时 的 计算 仅仅 在 每 10 ~ 100 步 进行 一 次 。 

H, physical properties) 图 数 计 算 能 量 、 纠 正 系数 和 大 量 有 意思 的 物理 属性 。 尽 管 如 
此 ， 这 些 计 算是 非常 简单 的 ， 不 会 显著 影响 程序 的 整体 运行 时 间 ， 因 此 ， 我 们 将 在 本 次 讨论 
中 忽略 它们 。 

由 于 大 多 数 计 算 时 间 位 于 non bonded forces) 中 ， 因 此 我 们 所 选择 的 问题 分 解 必须 能 够 
使 计算 高 效 地 并 行 执行 。 在 时 间 循 环 中 的 每 个 函数 具有 相似 的 结构 (在 串 行 版 本 中 ， 每 个 函 
数 包含 一 个 作用 于 多 个 原子 的 循环 操作 ， 用 于 计算 对 作用 力 向 量 的 贡献 )， 依 据 这 一 个 事实 ， 
问题 分 解 将 变 得 更 加 容易 。 这 样 ， 一 个 很 直观 的 任务 定义 是 : 每 个 原子 所 需要 的 更 新 对 应 于 
串 行 版 本 中 循环 的 一 次 迭代 。 完 成 任务 分 解 之 后 ， 我 们 会 获得 如 下 任务 : 

e 寻找 原子 上 振动 作用 力 的 任务 ; 

e 寻找 原子 上 旋转 作用 力 的 任务 ; 

e 寻找 原子 上 非 化 学 键 作 用 力 的 任务 ; 

e 更 新 原子 位 置 和 速度 的 任务 ; 


e. 为 所 有 原子 更 新 邻居 列表 的 任务 〈 串 行 处 理 )。 
通过 手动 收集 任务 ， 我 们 可 以 考虑 其 伴随 的 数据 分 解 。 主 要 的 数据 结构 是 邻居 列表 、 原 


子 坐标 、 原 子 速 度 和 作用 力 向 量 。 每 次 更 新 作用 力 向 量 时 ， 需 要 原子 的 邻居 坐标 。 然 而 ， 计 
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算 非 化 学 键 作 用 力 时 可 能 需要 所 有 原子 的 坐标 ， 因 为 被 仿真 的 分 子 可 能 以 不 可 预计 的 方式 折 

巷 回 来 。 我 们 将 使 用 这 些 信息 进行 数据 分 解 ( 在 3.3 节 中 ) 和 数据 共享 分 析 (在 3.6 节 中 )。 
知名 应 用 。 基 于 任务 的 分 解 在 并 行 计算 领域 中 极其 和 常见。 例如， 距离 几何 代码 DGEOM 

[Mat96] 使 用 的 是 基于 任务 的 分 解 ， 并 行 WESDYN 分 子 动力 学 程序 [MR95] 也 是 如 此 。 


3.3 数据 分 解 模式 


1. 问题 
如 何 将 一 个 问题 的 数据 分 解 为 多 个 相对 独立 操作 的 单元 ? 
2. 背景 
并 行 算 法 设计 者 必须 详细 了 解 所 要 求解 的 问题 。 此 外 ， 设 计 者 应 当 识 别 出 问 题 中 计算 密 
集 的 部 分 、 求 解 问题 所 需要 的 关键 数据 结构 ， 以 及 随 着 问题 求解 的 展开 如 何 使 用 数据 。 
对 基本 问题 了 解 之 后 ， 并 行 算 法 设计 者 应 当 考 虑 组 成 问题 的 任务 ， 以 及 任务 中 隐 含 的 数 
据 分 解 。 为 了 创建 一 个 并 行 算法 ， 必 须 采 用 任务 分 解 和 数据 分 解 。 问 题 不 是 进行 哪 一 种 分 解 ， 
而 是 先 从 哪 一 种 分 解 开始 。 如 果 以 下 情况 为 真 ， 基 于 数据 的 分 解 是 个 很 好 的 切入 点 。 
e 问题 中 计算 密集 的 部 分 是 围绕 着 一 个 大 型 数据 结构 的 管理 而 组 织 的 。 
e 相似 的 操作 应 用 于 数据 结构 的 不 同 部 分 ， 这样 可 以 相对 独立 地 操作 数据 结构 中 不 同 的 
部 分 。 
例如 ， 在 许多 线性 代数 问题 中 ， 需 要 更 新 大 型 矩阵 ， 对 矩阵 的 每 一 个 元 素 使 用 相似 的 
操作 集 。 在 这 些 情形 中 ， 通 过 观察 矩阵 是 如 何 分 解 为 多 个 并 发 更 新 的 数据 块 ， 然 后 进行 并 行 
算法 设计 是 比较 容易 的 。 任 务 的 定义 参考 数据 块 的 定义 方式 ， 并 映射 到 并 行 计算 机 的 处 理 单 
26 15e 
3. 面临 的 问题 
在 这 里 ， 面 临 的 主要 问题 是 灵活 性 、 效 率 和 简单 性 。 
e 灵活 性 。 设 计 中 的 灵活 性 将 使 得 它 能 够 适应 不 同 的 实现 需要 。 例 如 ， 将 设计 局 限于 特 
定 的 计算 机 系统 或 者 编程 风格 ,通常 不 是 一 个 明智 的 选择 。 
e 效率 。 仅 当 并 行程 序 能 够 随 着 并 行 计 算 机 的 规模 有 效 地 扩展 (减少 运行 时 间或 者 内 存 
使 用 量 )， 它 才 是 有 用 的 。 
e 简单 性 。 任 务 分 解 需要 足够 复杂 以 完成 工作 ， 但 也 需要 足够 以 简单 便于 程序 调试 和 维护 。 
4. 解决 方案 
在 共享 内 存 的 编程 环境 ( 例如 OpenMP) 中 ， 数 据 分 解 常常 隐 含 于 任务 分 解 中 。 尽 管 
如 此 ， 在 大 多 数 情况 中 ， 数 据 分 解 需 要 手动 完成 ， 因 为 内 存 是 物理 分 布 的 ， 并且 数据 之 间 
的 相关 性 太 复 条 ， 不 能 明确 对 数据 进行 分 解 ， 或 在 NUMA 架构 的 计算 机 上 获得 可 以 接受 的 
效率 。 
如 果 基 于 任务 的 分 解 已 经 完成 ， 则 数据 分 解 由 每 个 任务 的 需要 所 驱动 ， 如 果 每 个 任务 能 
够 与 定义 完善 且 不 同 的 数据 相关 联 ， 数 据 分 解 将 变 得 容易 。 
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尽管 如 此 ， 当 并 行 算法 设计 从 数据 分 解 开始 时 ， 我 们 不 需要 查看 任务 ， 但 需要 查看 定义 
问题 的 主要 数据 结构 ， 考 虑 它们 是 否 能 够 分 解 为 多 个 可 以 并 发 操作 的 数据 块 。 包 含 以 下 几 种 
常见 的 示例 。 
e 基于 数组 的 计算 。 可 以 根据 更 新 数组 中 不 同 的 数据 块 来 定义 并 发 性 。 如 果 数 组 是 多 维 
的 ， 则 可 以 采用 多 种 方式 对 它 进 行 划分 ( 行 、 列 或 者 不 同形 状 的 块 )。 
e 递归 数据 结构 。 例 如 ， 我 们 可 以 考虑 通过 将 一 个 大 型 的 树 数据 结构 分 解 为 多 个 能 够 并 
发 更 新 的 子 树 来 对 这 个 数据 结构 进行 分 解 。 
不 考虑 底层 数据 结构 的 内 在 含义 ， 如 果 数 据 分 解 是 驱动 问题 求解 的 主要 因素 ， 则 它 将 作 
为 并 行 算法 的 组 织 原 则 。 
当 考虑 如 何 分 解 问题 的 数据 结构 时 ， 需 要 牢记 竞争 因素 。 
e 灵活 性 。 数 据 块 的 大 小 和 数目 应 当 灵 活 支 持 不 同类 型 的 并 行 系统 。 一 种 方法 是 使 用 一 
些 参 数 来 控制 所 和 定义 的 数据 块 的 大 小 和 数目 。 这 些 参数 定义 一 些 粒 度 块 (granularity 
knob )， 通 过 改变 它们 可 以 修改 数据 块 的 大 小 ， 从 而 匹配 底层 硬件 的 需求 。( 但 是 注意 
的 是 : 关于 粒度 ， 许 多 设计 并 不 是 无 限制 地 适应 。) 
查看 粒度 对 数据 分 解 的 影响 最 容易 的 地 方 是 : 管理 数据 块 之 间 依 赖 所 需要 的 开销 。 管 理 
依赖 性 所 需要 的 时 间 必 须 远 小 于 总 体 运 行 时 间 。 在 一 个 好 的 数据 分 解 中 ， 相 较 于 每 个 数据 块 
所 关联 的 计算 量 ,， 依赖 性 的 可 扩展 尺度 很 低 。 例 如 ， 在 许多 有 限 差 分 的 程序 中 ， 数 据 块 之 间 
的 边界 单元 〈 即 数据 块 表面 ) 必须 是 共享 的 。 相 关 单 元 集 的 大 小 随 着 表面 区 域 的 大 小 而 扩展 ， 
而 计算 所 需 的 工作 量 随 着 数据 块 的 容量 而 扩展 。 这 意味 着 计算 量 可 扩展 ( 基于 数据 块 的 容 
量 )， 以 抵消 数据 依赖 所 带 来 的 开销 (基于 数据 块 的 表面 区 域 )。 
e 效率。 数据 块 必须 足够 大 ， 以 使 得 更 新 数据 块 的 工作 量 能 够 抵消 管理 数据 依赖 所 需要 
的 开销 。 更 加 国手 的 问题 是 考虑 如 何 将 数据 块 映 射 到 UE 上 。 一 个 高 效 的 并 行 算 法 必 
须 能 够 平衡 UE 间 的 负载 。 如 果 处 理 不 当 ， 某 些 PE 分 配 的 工作 量 可 能 不 成 比例 ， 整 
体 的 可 扩展 性 将 受 影 响 ， 这 可 能 需要 巧妙 的 方式 来 分 解 问题 。 例 如 ， 如 果 问 题 从 左 到 
右 处 理 和 矩阵 中 的 列 ， 则 矩阵 的 列 映射 将 出 现 问题 ， 这 样 会 使 得 具有 最 左边 列 的 UE 优 
先 于 其 他 UE 完成 工作 。 基 于 行 的 数据 块 分 解 或 者 甚至 是 数据 块 周 期 分 解 (在 该 分 解 
中 ， 把 行 周期 性 地 分 配给 PE) 都 能 够 更 好 地 让 所 有 处 理 器 保持 繁忙 。 这 些 问题 将 在 
5.10 市 中 进行 更 详细 的 讨论 。 
e 简单 性 。 过 度 复杂 的 数据 分 解 使 得 调试 非常 困难 。 数 据 分 解 通常 需要 将 一 个 全 局 索 
引 空间 映射 到 一 个 局 部 的 任务 索引 空间 。 这 种 映射 抽象 使 得 数据 分 解 很 容易 独立 和 
测试 。 
数据 分 解 之 后 ， 如 果 还 没有 进行 这 一 步 ， 紧 接着 是 查看 数据 所 隐 含 的 任务 分 解 。 任 务 分 
解 模式 可 能 有 助 于 这 种 分 析 。 
5. 示例 
医学 成 像 。 考 虑 3.1.3 节 所 描述 的 医学 成 像 问题 。 在 这 个 应 用 中 ， 身 体 模 型 中 某 一 点 的 选 
择 是 随机 的 ， 在 这 一 点 上 发 生 衰变 放射 性 ， 并 跟踪 发 射 粒子 的 轨迹 。 为 了 创建 一 个 具有 统计 
意义 的 模拟 ， 需 要 跟踪 成 千 上 万 条 轨迹 。 
在 这 个 问题 基于 数据 的 分 解 中 ， 身 体 模型 是 一 个 大 型 的 核心 数据 结构 ， 可 以 围绕 着 它 组 
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织 计算 。 身 体 模型 被 划分 成 多 个 片段 ， 一 个 或 多 个 片段 与 一 个 处 理 单元 相关 联 。 在 轨道 计算 
期 间 ， 这 些 身体 片段 是 只 读 的 并 且 不 可 写 。 因 此 ， 身 体 模型 的 划分 不 会 导致 数据 之 间 的 依赖 。 

在 数据 分 解 之 后 ， 我 们 需要 查看 与 每 个 数据 片段 相关 联 的 任务 。 在 这 种 情形 下 ， 每 条 轨 
迹 所 需要 的 数据 段 定 义 成 一 个 任务 。 轨 迹 在 数据 段 内 初始 化 并 传播 。 当 遇 到 数据 段 边 界 时 ， 
轨迹 必须 在 段 之 间 进 行 移动 。 这 种 移动 定义 了 数据 块 之 间 的 依赖 性 。 

另 一 方面 ， 在 这 个 问题 的 基于 任务 的 方法 中 (在 3.2 节 中 讨论 )， 每 个 粒子 的 轨迹 驱动 算 
法 设计 。 每 一 个 PE 可 能 需要 访问 整个 身体 模型 以 服务 它 的 轨迹 集合 。 在 一 个 共享 内 存 环境 中 
这 很 容易 ， 因 为 身体 模型 是 一 个 只 读数 据 集 。 但 是 ， 在 一 个 分 布 式 内 存 环境 中 ， 这 将 需要 大 
量 的 启动 开销 ， 因 为 身体 模型 需要 在 系统 中 进行 广播 。 | 

这 是 并 行 编程 中 较 常 见 的 情形 : 不 同 的 观点 将 导致 不 同 的 算法 出 现 ， 根 据 这些 算 法 取得 
的 性 能 差别 很 大 。 基 于 任务 的 算法 比较 简单 ， 仅 当 每 个 处 理 单 元 访问 一 个 大 内 存 时 ， 或 者 将 
数据 加 载 到 内 存 产 生 的 开销 相对 于 程序 的 运行 时 间 微 不 足 道 时 ， 它 才 起 作用 。 男 一 方面 ， 由 
数据 分 解 所 驱动 的 算法 能 够 高 效 使 用 内 存 ， 并 且 ( 在 分 布 式 内 存 环境 中 ) 较 少 使 用 网 络 带 宽 ， 
但 在 计算 并 发 部 分 期 间 会 产生 很 多 通信 开销 ， 并 且 显 得 更 加 复杂 。 具 体 选 择 哪 一 种 方法 是 非 
^E WEBS, TE 3.7 节 中 将 对 此 进一步 讨论 。 

和 矩阵 乘法 。 考 虑 两 个 矩阵 的 标准 相 乘 ( C=A*B )， 如 3.1.3 节 所 描述 的 ， 可 以 采用 几 种 基 
于 数据 的 分 解 来 解决 这 个 问题 。 最 直接 的 方法 是 将 矩阵 C 划分 为 行 数据 块 的 集合 ( 相 邻 行 的 
SE), RRA EN, HAC 中 每 行 数据 块 的 元 素 需 要 整个 4 矩阵， 但 仅 需要 和 矩阵 
的 对 应 行 。 根 据 这 样 的 数据 分 解 ， 算 法 的 基本 任务 变 成 计算 和 矩阵 C 中 行 数据 块 的 元 素 。 

更 高 效 的 方法 是 将 3 个 矩阵 都 划分 成 多 个 子 和 矩阵 或 数据 块 ， 这 样 不 需要 复制 整个 4 矩 
阵 。 于 是 基本 任务 变 成 了 C 和 矩阵 数据 块 的 更 新 ， 随 着 计算 的 进行 ，4 矩阵 数据 块 和 召 和 矩阵 数 
据 块 周期 性 地 出 现在 这 些 任 务 中 。 尽 管 如 此 ， 这 种 划分 方法 对 于 编程 来 说 更 加 复杂 ， 在 问题 
的 时 间 临 界 部 分 ， 必 须 认 真 协 调 通 信和 计算 。4.6 WA 5.10 节 将 进一步 讨论 这 个 示例 。 

矩阵 乘法 问题 的 特征 之 一 是 : 浮 点 操作 ( O(N ) ) 相对 于 内 存 访问 COQU) ) 的 比率 很 小 。 
这 隐 含 着 一 个 非常 重要 的 方面 ， 即 考虑 对 内 存 的 访问 模式 ， 以 最 大 化 重用 缓存 中 数据 。 最 高 
效 的 方法 是 使 用 数据 块 〈 子 矩阵 ) 划分 ， 并 调整 数据 块 的 大 小 ， 使 得 问题 适合 于 缓存 。 通 过 
仔细 对 任务 进行 分 组 ， 能 够 获得 相同 的 算法 ，3.2 节 介 绍 过 这 种 方法 。 但 是 从 数据 分 解 开始 ， 
将 每 个 子 和 矩阵 的 更 新 视 为 一 个 任务 便于 理解 。 

分 子 动力 学 。 考 虑 3.1.3 节 和 3.2 节 描 述 的 分 子 动 力学 问题 。 很 自然 地 采用 任务 分 解 来 解 
决 这 个 问题 ， 其 中 任务 是 作用 力 计 算 例 程 中 循环 的 某 层 迭代 。 

在 此 ， 概 括 问题 及 其 任务 分 解 ， 得 到 以 下 几 种 任务 : 

e 寻找 原子 上 振动 作用 力 的 任务 ; 

e 寻找 原子 上 旋转 作用 力 的 任务 ; 

e 寻找 原子 上 非 化 学 键 作 用 力 的 任务 ; 

e 更 新 原子 任务 和 速度 的 任务 ; 

e 为 所 有 原子 更 新 邻居 列表 的 任务 ( 串 行 处 理 )。 

关键 的 数据 结构 包括 : 

e 原子 坐标 的 数组 ， 每 个 原子 对 应 数组 中 一 个 元 素 ; 
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e 原子 速度 的 数组 ， 每 个 原子 对 应 数组 中 一 个 元 素 ; 
e 列表 的 数组 ， 每 个 原子 对 应 数组 中 一 个 元 素 ， 数 组 中 每 个 元 素 定 义 了 原子 截止 距离 内 
所 有 原子 的 邻居 ; 

e 原子 上 作用 力 的 数组 ， 每 个 原子 占用 数组 中 的 一 个 元 素 。 

速度 数组 的 元 素 仅 被 拥有 相应 原子 的 任务 所 使 用 ， 这 些 数据 之 间 不 需要 共享 ， 因 此 ， 可 
以 作为 任务 的 局 部 数据 。 但 是 ， 每 个 任务 需要 访问 整个 坐标 数组 。 因 此 ， 在 一 个 分 布 式 内 存 
环境 中 ， 需 要 复制 这 些 数据 ; 而 在 一 个 共享 内 存 环境 中 ， 需 要 在 UE 间 共 享 它 。 

更 有 趣 的 是 作用 力 数组 。 根 据 牛 顿 第 三 定律 ， 原子 i 对 原子 j 的 作用 力 与 原子 j 对 原子 i 
的 作用 力 大 小 相同 且 方 向 相反 。 当 我 们 可 以 根据 这 种 对 称 性 累加 作用 力 时 ， 可 以 将 计算 量 减 
半 。 作 用 力 数组 中 的 值 直 到 最 后 一 步 更 新 坐标 和 速度 后 才 计 算出 来 。 因 此 ， 所 使 用 的 方法 是 : 
在 每 个 PE 中 初始 化 整个 作用 力 数 组 ， 并 且 将 任务 所 累加 的 作用 力 项 的 部 分 和 放置 到 这 个 数组 
之 中 。 当 所 有 的 部 分 作用 力 项 计算 完成 之 后 ， 将 所 有 PE 上 的 数组 累加 在 一 起 获得 最 终 的 作用 
力 数组 。3.6 节 将 进一步 讨论 这 个 方法 。 

知名 应 用 。 数 据 分 解 方法 在 并 行 科学 计算 领域 中 非常 普遍 。 并 行 线性 代数 库 ScaLAPACK 
[Sca, BCC'97] 使 用 了 基于 数据 块 的 分 解 。 用 于 稠密 线性 代数 问题 的 PLAPACK 环境 [vdG97] 
使 用 了 一 种 稍微 不 同 的 数据 分 解 方 法 。 例 如 ， 如 果 等 式 的 形式 为 y=4x， 并 不 是 首先 划分 矩阵 
A， 而 是 以 一 种 自然 的 方式 划分 向 量 y 和 x， 然 后 确定 对 矩阵 4 的 划分 。 该 论文 的 作者 宣称 利 
用 这 种 方法 取得 了 更 好 的 性 能 ， 并 且 更 容易 实现 。 

在 分 子 动力 学 示例 中 使 用 的 数据 分 解 由 Mattson 和 Ravishanker [MR95] 提出 。 关 于 这 个 
问题 更 高 级 的 数据 分 解 方法 由 Plimpton 和 Hendrickson 在 文献 [PH95、Pli95] 中 进行 了 讨论 ， 
该 方法 在 节点 数目 众多 的 情况 下 具有 良好 的 扩展 性 。 


3.4 分 组 任务 模式 


1. 问题 

如 何 将 组 成 问题 的 任务 进行 分 组 ， 以 简化 任务 之 间 相 关 依 赖 的 管理 工作 ? ， 

2. 4 3 

使 用 了 相应 的 任务 和 数据 分 解 之 后 ， 可 以 应 用 这 种 模式 。 

这 种 模式 描述 了 分 析 问 题 分 解 中 任务 之 间 依 赖 的 第 一 步 。 在 开发 问题 的 任务 分 解 时 ， 我 
们 考虑 能 够 并 发 执行 的 任务 。 而 在 任务 分 解 期 间 ， 我 们 并 没有 对 它 进行 强调 。 很 显然 这 些 任 
务 不 能 构成 一 个 平滑 的 集合 。 例 如 ， 在 算法 中 源 于 相同 高 级 操作 的 任务 可 以 很 自然 地 分 组 在 
一 起 。 其 他 的 任务 在 源 问题 中 可 能 并 不 相关 ， 但 是 在 它们 并 发 执行 中 具有 相似 的 约束 ， 因 此 ， 
这 样 也 能 够 分 组 在 一 起 。 

总 之 ， 对 于 任务 集合 来 说 ， 具 有 大 量 的 结构 。 这 些 结构 一 一 这 些 任 务 的 分 组 一 一 简化 了 
问题 之 间 的 依赖 性 分 析 。 如 果 一 个 分 组 共享 一 个 时 间 约 束 ( 例如 ， 在 一 个 分 组 能 够 开始 读 取 
一 个 文件 之 前 ， 等 待 另 一 个 分 组 完成 对 这 个 文件 的 填写 )， 则 我 们 可 以 一 次 性 对 于 整个 分 组 满 
足 这 个 约束 。 如 果 任 务 的 一 个 分 组 必须 工作 在 一 起 ， 对 一 份 共享 数据 结构 进行 操作 ， 则 可 以 
一 次 性 对 于 整个 分 组 设计 所 需要 的 同步 。 如 果 任 务 集合 是 独立 的 ， 则 将 它们 合并 到 一 个 分 组 
中 ， 把 它们 作为 单个 大 型 的 分 组 进行 调度 ， 这 样 可 以 简化 设计 ， 并 增加 可 利用 的 并 发 性 (从 
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而 解决 方案 能 够 扩展 到 更 多 的 PE 上 执行 )。 

每 一 种 情况 中 ， 宗 旨 是 定义 共享 约束 的 任务 分 组 ， 并 且 通 过 处 理 分 组 而 不 是 单个 任务 来 
简化 管理 约束 的 问题 。 

3. 解决 方案 

任务 间 的 约束 分 为 以 下 几 个 主要 类 别 。 

。 最 容易 理解 的 相关 性 是 时 间 相 关 性 一 一 也 就 是 关于 任务 集合 执行 顺序 的 一 个 约束 。 例 
如 ， 如 果 任 务 4 依赖 于 任务 B 的 结果 ， 则 任务 4 必须 等 待 ， 直 到 任务 B 执行 完毕 后 才 
能 继续 执行 。 通 常 ， 我 们 从 数据 流 方面 考虑 这 种 情形 ; 任务 4 因 等 待 任务 B 提供 的 数 
据 而 阻塞 ; 当 B 完成 时 ， 数 据 流 进入 4。 在 某 些 情形 中 ，4 可 以 在 数据 刚 从 B 处 开始 
流入 时 就 开始 计算 (例如 4.8 节 描 述 的 流水 线 算 法 )。 

当 一 个 任务 集合 必须 同时 运行 时 ， 出 现 另 一 种 类 型 的 顺序 约束 。 例 如 ， 在 许多 数据 并 
行 问题 中 ， 初 始 问题 领域 被 分 解 为 多 个 能 够 并 行 更 新 的 领域 。 任 何 给 定 区 域 的 更 新 通 
常 需要 它 邻 域 的 边界 信息 ， 如 果 所 有 的 区 域 不 能 够 同时 处 理 ， 并 行程 序 可 能 停顿 ， 或 
者 发 生死 锁 ， 因 为 某 些 区 域 需要 等 待 其 他 非 活 路 区 域 的 数据 。 
在 某 些 情形 下 ， 分 组 中 的 任务 相互 之 间 是 完全 独立 的 ， 这 些 任 务 之 间 的 执行 不 具有 顺 
利 约束 。 这 是 任务 集合 的 一 个 重要 特征 ， 因 为 这 意味 着 它们 能 够 以 任意 顺序 进行 执 
行 ， 包 括 并 发 执行 ， 清 楚 这 一 点 非常 重要 。 

这 种 模式 的 目标 是 基于 这 些 约束 对 任务 进行 分 组 ， 原 因 如 下 。 

e 通过 分 组 任务 ， 简 化 了 任务 间 部 分 顺序 的 构建 ， 因 为 顺序 约束 能 够 应 用 于 组 ， 而 不 是 

单个 任务 。 

© 分 组 任务 可 以 更 容易 识别 出 哪些 任务 必须 并 发 执行 。 

对 于 一 个 给 定 的 问题 和 分 解 ， 可 能 存在 多 种 分 组 任务 的 方式 。 我 们 的 目标 是 寻找 一 种 能 

够 简化 相关 性 分 析 的 分 组 方式 。 为 了 阐明 这 一 点 ， 将 相关 性 分 析 作 为 发 据 和 满足 程序 并 发 执 
[40] 行 的 约束 。 当 任务 共享 一 个 约束 集 时 ， 将 它们 分 组 可 以 简化 相关 性 分 析 。 

不 存在 寻找 任务 分 组 的 单个 方式 。 我 们 建议 的 方法 如 下 ， 要 牢记 ， 不 能 只 考虑 任务 分 组 ， 

而 忽略 约束 本 身 。 在 设计 的 这 个 时 刻 上 ， 最 好 做 到 尽 可 能 抽象 一 一 识别 约束 并 且 分 组 任务 有 

助 于 解决 它们 ， 但 尽量 不 要 拘泥 于 细节 。 

e 首先 ， 查 看 初始 问题 是 如 何 分 解 的 。 在 大 多 数 情形 中 ， 一 个 高 级 操作 ( 例如 ， 求 解 某 
个 矩阵 ) 或 一 个 大 型 迭代 的 程序 结构 ( 例如 ， 某 个 循环 ) 在 定义 分 解 中 扮演 着 关键 的 
角色 。 这 是 寻找 任务 分 组 的 首选 。 高 级 操作 相应 的 任务 可 以 很 自然 地 分 组 在 一 起 。 

在 此 刻 ， 任 务 可 能 存在 很 多 小 的 任务 分 组 。 在 下 一 步 中 ,我 们 将 查看 分 组 中 任务 

间 共 享 的 约束 。 如 果 多 个 任务 共享 一 个 约束 一 一 通常 是 共享 数据 结构 的 更 新 一 一 将 它 
们 视 为 另 一 个 分 组 保存 。 算 法 设计 需要 确保 这 些 任 务 同 时 执行 。 例 如 ， 许 多 问题 包含 
对 某 个 任务 集中 共享 的 数据 结构 进行 协作 更 新 。 如 果 这 些 任务 不 能 并 发 执行 ， 则 程序 
可 能 产生 死 锁 。 
紧 接着 ， 查 看 其 他 任何 任务 分 组 是 否 共享 相同 的 约束 。 如 果 共 享 ， 则 合并 这 些 分 组 。 
大 型 任务 分 组 提供 了 额外 的 并 发 性 ， 让 更 多 的 PE 保持 繁忙 ， 也 为 任务 执行 的 调度 提 
供 了 额外 的 灵活 性 。 因 此 ， 使 得 平衡 PE 间 的 负载 更 加 容易 ( 也 就 是 说 ， 确 保 了 每 个 
PE 在 问题 求解 上 耗费 近似 相同 的 时 间 量 )。 
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e 下 一 步 是 观察 任务 分 组 间 的 约束 。 当 分 组 具有 明确 的 时 间 顺 序 时 ， 或 者 当 清 晰 的 数 
据 链 在 分 组 间 移 动 时 ， 这 是 非常 容易 做 到 的 。 但 是 ， 更 加 复杂 的 情形 是 当 其 他 独立 
任务 分 组 共享 分 组 间 的 约束 时 。 在 这 些 情形 中 ， 将 这 些 分 组 合并 为 一 个 更 大 的 独立 
任务 分 组 是 非常 有 意义 的 一 一 因为 大 型 任务 分 组 通常 使 得 调度 更 加 灵活 并 且 扩 展 性 
更 好 。 
4. 示例 
分 子 动 力学 。 该 问题 的 描述 见 3.1.3 节 ，3.2 节 和 3.3 节 讨 论 了 它 的 分 解 ， 识别 出 的 任务 
如 下 : 
e 寻找 原子 上 振动 作用 力 的 任务 ; 
e 寻找 原子 上 旋转 作用 力 的 任务 ; 
e 寻找 原子 上 非 化 学 键 作 用 力 的 任务 ; 
e 更 新 原子 位 置 和 速度 的 任务 ; 
e 为 所 有 原子 更 新 邻居 列表 的 任务 〈 单 个 任务 ， 因 为 这 部 分 计算 是 串 行 的 )。 
考虑 如 何 将 这 些 任务 分 组 在 一 起 。 在 第 一 遍 中 ， 前 面 列表 中 的 每 一 项 对 应 于 原始 问题 中 
的 某 个 高 级 操作 ， 并 且 定 义 一 个 任务 分 组 。 但 是 ， 如 果 进 一 步 挖掘 这 个 问题 时 ， 将 看 到 隐 含 
在 作用 力 函 数 中 的 更 新 是 相互 独立 的 。 唯 一 的 相关 性 是 对 作用 力 进 行 累加 ， 并 存放 到 一 个 作 
用 力 数 组 中 。 
接着 查看 是 否 可 以 合并 这 些 分 组 。 通 过 观察 列表 ， 会 发 现 前 面 两 个 分 组 中 的 任务 是 相互 
独立 的 ， 但 共享 相同 的 约束 。 在 这 两 个 分 组 中 ， 坐 标 对 于 原子 的 小 部 分 邻居 来 说 是 只 读 的 ， 
并 且 得 出 作用 力 数组 的 局 部 分 布 ， 因 此 我 们 能 够 将 它们 合并 为 一 个 分 组 ， 用 于 求 取 化 学 键 的 
相互 作用 力 。 其 他 分 组 由 于 具有 不 同 的 时 间或 顺序 约束 ， 因 此 不 能 合并 。 
矩阵 乘法 。3.2 节 讨 论 了 将 矩阵 乘法 CAB 分 解 为 多 个 任务 ， 每 个 任务 对 应 于 矩阵 C 中 
某 个 元 素 的 更 新 。 但 是 ， 最 新 计算 机 的 内 存 组 织 擅长 于 粗 粒 度 任 务 ， 例 如 ， 更 新 矩阵 C 的 一 
个 数据 块 ， 正 如 3.3 节 描 述 的 一 样 。 精 确 地 讲 ， 这 等 价 于 将 元 素 更 新 任务 进行 分 组 ， 每 个 任 
务 对 应 于 一 个 数据 块 。 采 用 这 种 方法 进行 分 组 能 够 充分 利用 系统 内 存 。 


3.5 ”排序 任务 模式 


1. 问题 

给 定 一 种 将 问题 分 解 为 任务 的 方式 ， 以 及 一 种 将 这 些 任务 收集 到 逻辑 相关 分 组 中 的 方式 ， 
如 何 对 这 些 任务 分 组 进行 排序 ， 以 满足 任务 间 的 约束 ? 

2. 9X 

这 种 模式 给 出 了 分 析 茶 个 问题 中 任务 间 依 赖 性 的 第 二 步 。 其 中 第 一 步 〈 在 3.4 节 已 讨论 ) 
是 基于 任务 间 的 约束 分 组 任务 。 这 里 讨论 的 下 一 步 是 根据 任务 集合 执行 顺序 上 的 约束 来 寻找 
并 正确 曾 述 依赖 性 。 任 务 间 的 约束 主要 分 为 如 下 几 类 。 

e 时 间 依 赖 性 ， 即 关于 任务 集合 执行 顺序 的 约束 。 

e 一 些 特定 的 任务 必须 同时 执行 的 需求 ( 例如， 每 个 任务 所 需要 的 信息 将 由 其 他 任务 

PER 
e 缺乏 约束 ， 即 相互 间 是 完全 独立 的 。 但 是 严格 地 说 ， 这 并 不 是 一 种 约束 ， 但 它 是 任务 
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集 的 一 种 重要 特征 ， 因 为 这 意味 着 这 些 任 务 可 以 按 任意 顺序 执行 ， 包 括 并 发 执行 ， 了 
解 这 一 点 是 非常 重要 的 。 
e 这 种 模式 有 助 于 根据 一 个 任务 集合 执行 顺序 上 的 约束 来 发 据 并 且 正 确 解 释 其 依赖 性 。 
3. 解决 方案 
当 识 别 任务 之 间 的 顺序 约束 和 定义 任务 分 组 间 的 部 分 顺序 时 ， 有 两 个 目标 需要 满足 。 
e 顺序 必须 是 充分 严格 的 ， 以 满足 所 有 的 约束 ， 确 保 最 终 的 设计 是 正确 的 。 
e. 对 顺序 的 限制 不 应 该 比 它 需要 的 严格 。 过 度 约束 的 解决 方案 限制 了 设计 选项 ， 并 且 可 
能 降低 程序 的 效率 ; 约束 越 少 ， 就 能 够 更 加 灵活 地 转换 任务 ， 便 于 平衡 PE 间 的 计算 
负载 。 
为 了 识别 顺序 约束 ， 考 虑 如 下 几 种 任务 依赖 方式 。 
e 首先 ， 在 执行 一 组 任务 之 前 ， 查 看 它们 所 需要 的 数据 。 当 识别 这 些 数 据 之 后 ， 寻 找 创 
建 这 些 数 据 的 任务 分 组 ， 并且 将 出 现 一 种 顺序 约束 。 例 如 ， 如 果 一 组 任务 ( 称 为 4) 
构建 了 一 个 复杂 的 数据 结构 ， 男 一 组 任务 (RAB) 使 用 了 该 数据 结构 ， 则 这 两 个 分 
组 间 存 在 一 个 串 行 的 顺序 约束 。 当 这 两 个 分 组 被 组 合 到 一 个 程序 中 时 ， 它 们 必须 串 行 
执行 : 首先 执行 4， 然 后 执行 B。 
e 另外 考虑 外 部 设备 是 否 可 以 施加 一 些 顺序 约束 。 例 如 ， 如 果 一 个 程序 必须 以 某 种 特定 
顺序 写 一 个 文件 ， 那 么 这 些 文件 IO 操作 很 可 能 施加 一 种 顺序 约束 。 
e 最 后 ， 非 常 重要 的 是 ， 注 意 任何 顺序 约束 不 存在 的 情况 ， 如 果 一 些 任 务 分 组 能 够 相互 
独立 地 执行 ， 则 存在 很 大 的 机 会 来 挖掘 并 行 性 ， 因 此 我 们 需要 注意 任务 是 独立 的 情 
况 ， 就 像 关 注 任务 间 是 相互 依赖 的 情况 。 
不 管 约束 源头 怎样 ， 我 们 必须 定义 约束 来 限制 执行 顺序 ， 以 确保 它们 在 算法 设计 中 被 正 
确 地 处 理 。 同 时 ， 非 常 重 要 的 是 ， 注 意 缺 少 顺 序 约束 的 情况 ， 因 为 这 将 对 后 面 的 设计 带 来 非 
常 有 价值 的 灵活 性 。 
4. 示例 
分 子 动 力学 。 这 个 问题 的 描述 见 3.1.3 节 ，3.2 节 和 3.3 节 讨 论 了 它 的 分 解 。3.4 节 描 述 了 
如 何 借助 如 下 分 组 来 组 织 这 个 问题 的 任务 。 
e 寻找 每 个 原子 上 “化 学 键 作 用 力 ”( 振动 作用 力 和 旋转 作用 力 ) 的 任务 分 组 。 
e 寻找 每 个 原子 上 非 化 学 键 作 用 力 的 任务 分 组 。 
e 更 新 每 个 原子 位 置 和 速度 的 任务 分 组 。 
e 为 所 有 原子 更 新 邻居 列表 的 任务 (通常 会 构成 一 个 任务 分 组 )。 
现在 我 们 准备 考虑 分 组 间 的 顺序 约束 。 很 显然 ， 
原子 位 置 的 更 新 直到 作用 力 计算 完成 后 才能 够 发 生 。 
此 外 ， 非 化 学 键 作 用 力 直到 邻居 列表 更 新 后 才能 够 计 
算 。 因 此 ， 在 每 个 时 间 步 中 ， 分 组 必须 按照 图 3-4 所 
示 的 顺序 进行 排列 。 









目前 ， 详 细 考 虑 如 何 强制 执行 这 些 顺序 约束 还 有 


点 为 时 过 早 ， 但 最 终 我 们 需要 提供 某 种 类 型 的 同步 机 下 一 个 时 间 步 
制 来 确保 严格 遵守 它们 之 间 的 顺序 。 3-4 分子 动 力学 问题 中 任务 的 顺序 
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3.6 ”数据 共享 模式 


1. 问题 
对 于 给 定 问 题 的 数据 分 解 和 任务 分 解 ， 如 何在 任务 间 共 享 数据 ? 
2. 背景 | 
在 高 层 ， 每 一 个 并 行 算法 包括 : 
e 一 个 能 够 并 发 执行 的 任务 集合 ( 参考 3.2 77 ); 
e 并 发 任务 集合 相应 的 数据 分 解 ( 参考 3.3 节 ); 
e 管理 任务 间 的 依赖 性 以 确保 任务 安全 地 并 发 执行 。 
正如 3.4 节 和 3.5 节 描 述 的 ， 依 赖 性 分 析 的 切 人 点 是 基于 任务 间 的 约束 来 分 组 任务 ， 然 后 
确定 任务 分 组 所 需要 的 顺序 约束 。 紧 接着 ,分 析 数 据 如 何在 任务 分 组 间 共 享 ( 在 这 里 讨论 )， 
这 样 能 够 正确 管理 任务 对 共享 数据 的 访问 。 
尽管 分 析 会 产生 任务 分 组 和 任务 间 的 顺序 约束 ， 但 是 分 析 主 要 集中 于 任务 分 解 。 在 依赖 
性 分 析 这 个 阶段 中 ,注意 力 转移 到 数据 分 解 ， 即 将 问题 的 数据 分 解 为 多 个 独立 更 新 的 数据 块 ， 
每 个 数据 块 关联 一 个 或 者 多 个 负责 该 数据 块 更 新 的 任务 。 这 种 数据 块 通常 称 为 “任务 局 部 数 
据 ”( 或 者 仅 称 为 “局 部 数据 ”)， 因 为 它 与 负责 更 新 它 的 任务 是 一 种 紧 耦 合 的 关系 。 然 而 ， 每 
个 任务 仅 能 够 使 用 它 目 己 的 局 部 数据 进行 操作 是 非常 罕见 的 ; 数据 可 能 需要 在 任务 间 以 多 种 
方式 进行 共享 。 最 常见 的 两 种 情况 如 下 。 
e 除了 任务 局 部 数据 之 外 ， 问 题 的 数据 分 解 可 能 定义 一 些 必须 在 任务 间 共 享 的 数据 : 比 
如 ， 一 些 任务 可 能 需要 协作 更 新 某 个 大 型 的 共享 数据 结构 。 这 样 的 数据 不 能 被 任何 给 
定 的 任务 所 标识 ; 对 于 问题 来 说 ， 它 们 是 全 局 的 。 这 些 共享 数据 被 多 个 任务 修改 ， 因 
此 ， 它 们 是 任务 间 依 赖 性 的 源头 。 
e 当 一 个 任务 需要 访问 男 一 个 任务 的 局 部 数据 时 ， 数 据 依赖 性 也 可 能 出 现 。 这 种 类 型 的 
数据 依赖 性 的 经 典 示 例 存 在 于 有 限 差 分 方法 中 ,该 方法 使 用 数据 分 解 来 进行 并 行 化 ， 
其 中 ， 问 题 空间 中 的 每 一 个 点 需要 使 用 附近 点 的 值 进行 更 新 ， 因 此 对 一 个 分 解 的 数据 
块 进行 更 新 时 需要 它 的 邻居 数据 块 的 边界 值 。 
这 种 模式 讨论 了 并 行 算法 中 的 数据 共享 ， 以 及 如 何 处 理 典型 的 共享 数据 。 
3. 面临 的 问题 
这 种 模式 的 目标 是 识别 出 哪些 数据 在 任务 分 组 间 共 享 ， 并 且 确 定 如 何 正 确 而 高 效 地 管理 
共享 数据 的 访问 。 
数据 共享 对 正确 性 和 效率 具有 重大 影响 。 
e 如 果 共 享 处 理 不 正确 ， 任 务 可 能 因为 某 种 竞 态 条 件 〈race condition ) 而 获得 无 效 数据 ; 
这 通常 发 生 在 共享 地 址 空间 的 环境 中 。 在 该 环境 中 ， 在 任务 读 取 内 存 位 置 中 的 某 些 数 
据 时 ， 这 些 数据 还 未 写 人 。 
e 为 了 保证 共享 数据 已 经 准备 且 以 待 使 用 ， 可 能 导致 过 度 的 同步 开销 。 例 如 ， 可 以 在 读 
取 共 享 数 据 之 前 放置 一 个 栅栏 操作 -来 加 强 顺 序 约束 。 但 是 ， 这 样 可 能 产生 无 法 接受 的 


O 栅栏 是 一 种 同步 构造 ， 是 程序 中 定义 的 一 个 同步 点 ， 即 一 组 UE 必须 都 到 达 这 一 点 之 后 ， 它 们 才能 够 继续 
执行 下 去 。 


45 | 


| 46 | 


32 


RIF 


” 低 效 率 ， 特 别 是 当 仅 有 少数 UE 实际 上 共享 数据 的 情况 时 。 较 好 的 策略 是 将 数据 复制 
到 局 部 数据 中 ， 或 者 重新 构建 任务 ， 以 最 小 化 对 共享 数据 的 读 取 次 数 。 

e 另 一 种 数据 共享 的 开销 源 是 通信 。 在 一 些 并 行 系统 中 ， 对 共享 数据 的 访问 上 暗含 了 在 
UE 间 的 消息 传递 。 这 个 问题 时 常 可 以 通过 重 芭 通信 和 计算 来 缓解 ， 但 这 并 不 总 是 可 
行 的 。 通 常 ， 较 好 的 选择 是 精心 构造 算法 和 任务 ， 使 得 任务 间 共 享 数据 所 需 的 通信 和 量 
最 小 。 另 一 种 方式 是 在 每 个 UE 拥有 共享 数据 的 一 份 副本 ， 尽 管 需要 确保 所 复制 的 数 
据 在 UE 中 保持 一 致 ， 但 这 种 方式 比较 高 率 。 

因此 ， 甚 目标 是 管理 共享 数据 以 确保 其 正确 性 ， 并 且 尽 可 能 不 对 效率 造成 太 大 的 影响 。 

4. 解决 方案 

首先 是 识别 出 任务 间 的 共享 数据 。 

当 分 解 主要 是 基于 数据 的 分 解 时 ， 共 享 数 据 很 明显 。 例 如 ， 在 一 个 有 限 差分 问题 中 ， 把 


基本 数据 分 解 成 多 个 数据 块 。 分 解 的 本 质 表 明 ， 数据 块 的 边缘 数据 被 相 邻 数据 块 所 共享 。 本 
质 上 ， 当 基本 分 解 完成 后 ， 数 据 共享 就 已 经 实现 了 。 


当 基 于 任务 的 分 解 占据 主导 地 位 时 ， 人 情况 会 更 加 复杂 。 在 任务 定义 的 某 时 刻 ， 确 定数 据 


是 如 何 被 传人 或 传 出 任务 的 ， 以 及 数据 是 否 被 任务 所 更 新 。 这 些 是 潜在 的 数据 共享 源 。 


当 识别 出 共享 数据 后 ， 需 要 分 析 如 何 使 用 这 些 数 据 。 共 享 数据 主要 分 成 如 下 3 类 。 

e 只 读 。 数 据 可 以 读 ， 但 不 能 够 写 。 因 为 它 是 不 可 修改 的 ， 所 以 访问 这 些 值 不 需要 任何 
的 保护 措施 。 在 某 些 分 布 式 内 存 系统 中 ， 对 只 读数 据 的 复制 是 值得 的 ， 这 样 每 个 执行 
单元 自身 拥有 共享 数据 的 一 份 副本 。 

e AX - 局 部 ( effectively-local )。 数 据 被 分 解 为 多 个 子 集 ， 每 个 子 集 仅 被 一 个 任务 访问 
( 读 或 写 )。( 例如 ， 数 组 被 多 个 任务 共享 ， 共 享 的 方式 是 数组 中 的 元 素 实际 上 分 解 为 
多 个 任务 局 部 的 数据 集合 )。 这 种 情况 为 处 理 依赖 性 分 析 提 供 了 某 些 选择 。 如 果 能 够 
独立 访问 数据 的 子 集 ( 如 数组 元 素 ， 不 一 定 是 列表 元 素 )， 则 不 需要 担心 对 数据 访问 
的 保护 。 在 分 布 式 内 存 系统 中 ， 这 样 的 数据 通常 分 布 于 各 个 UE 中 , 每 个 UE 仅 拥有 
它 的 任务 所 需要 的 数据 。 在 计算 结束 时 ， 如 果 需 要 ， 可 以 将 数据 重新 合并 成 单个 数据 
结构 。 

e $- 写 。 数 据 既 可 以 读 ， 也 可 以 写 ， 并 且 被 多 个 任务 所 访问 。 这 是 非常 常见 的 情形 ， 
包括 各 种 复杂 情形 ， 在 该 情形 中 ， 数 据 被 任意 数目 的 任务 所 读 或 写 。 这 种 情形 是 最 难 
处 理 的 ， 因 为 对 数据 的 任何 访问 〈 读 或 写 ) 必须 利用 某 种 类 型 的 互 斥 访问 机 制 ( 锁 、 
信号 量 等 ) 来 保护 ， 这 具有 非常 昂贵 的 代价 。 

值得 提 及 两 种 常见 的 特殊 读 写 情形 。 

e 累加 。 所 用 的 数据 被 累加 到 一 起 而 获得 一 个 结果 ( 例如， 当归 约 计算 时 )。 对 于 共享 
数据 中 的 每 一 个 位 置 ， 值 由 多 个 任务 进行 更 新 ， 其 中 更 新 发 生 在 某 种 类 型 的 结合 累加 
操作 中 。 最 常见 的 累加 操作 包括 : 求 和 、 求 最 小 值 和 求 最 大 值 ， 可 能 是 对 一 些 操作 数 
对 的 任意 结合 操作 。 对 于 这 样 的 数据 ， 每 个 任务 (或 者 通常 是 每 个 UE) 拥有 一 份 独 
立 的 副本 ; 累加 发 生 在 这 些 局 部 副本 中 ， 当 局 部 累加 结束 完成 后 ， 所 有 累加 结果 再 被 
累加 到 单个 全 局 副本 中 。 

e 多 次 读 / 单 次 写 。 数 据 被 多 个 任务 读 取 ( 所 有 任务 都 需要 它 的 初始 值 )， 但 仅 被 单个 任 
务 所 修改 (该 任务 能 够 以 任意 频率 对 它 进行 读 和 写 )。 这 些 变量 经 常 出 现在 基于 数据 
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个 被 修改 它 的 任务 使 用 ; 当 不 再 需要 时 ， 可 以 丢弃 包含 初始 值 的 副本 。 在 分 布 式 内 存 
系统 中 ， 通 常 需要 为 访问 ( 读 或 写 ) 数据 的 每 个 任务 创建 一 个 数据 副本 。 
5. 示例 
分 子 动力 学 。 对 这 个 问题 的 描述 见 3.1.3 节 ， 这 在 3.2 节 和 3.3 市 中 进行 了 讨论 。 然 后 ， 
识别 出 这 些 任 务 分 组 (在 3.2 节 中 ),， 并 考虑 了 任务 分 组 间 的 时 间 约 束 (在 3.5 节 中 )。 现 在 我 
们 先 将 暂时 忽略 时 间 约 束 ， 只 关注 问题 的 最 终 任务 分 组 中 的 数据 共享 ， 这 些 任 务 分 组 包括 : 
e 寻找 每 个 原子 上 “化 学 键 作 用 力 ”( 振动 作用 力 和 旋转 作用 力 ) 的 任务 分 组 ; 
e 寻找 每 个 原子 上 非 化 学 键 作用 力 的 任务 分 组 ; 
e 更 新 每 个 原子 位 置 和 速度 的 任务 分 组 ; 
e 为 所 有 原子 更 新 邻居 列表 的 任务 ( 轻松 地 构成 了 一 个 任务 分 组 )。 
这 个 问题 中 的 数据 共 至 非常 复杂 。 图 3-5 中 总 结 了 分 组 间 的 共享 数据 。 主 要 的 共享 数据 
项 如 下 。 


.| ”久居 列表 





图 3-5 分 子 动力 学 中 的 数据 共享 ( 区 分 读 、 读 写 以 及 累加 共享 ) 


e 原子 坐标 ， 被 每 个 分 组 使 用 。 
e 这 些 坐 标 被 化 学 键 作用 力 组 、 非 化 学 键 作用 力 组 和 邻居 列表 更 新 组 视 为 只 读数 据 。 这 
些 数 据 对 于 位 置 更 新 组 来 说 是 可 读 写 的 。 剃 运 的 是 ,位置 更 新 组 在 其 他 3 个 组 完成 后 
才能 执行 ( 基于 使 用 3.6 节 开 发 的 顺序 约束 ) 因此 ， 在 前 面 3 个 分 组 中 ， 我 们 可 以 
对 访问 位 置 中 的 数据 不 加 保护 ， 或 者 复制 它 。 对 于 位 置 更 新 组 ， 位 置 数据 属于 读 写 类 
型 ， 需 要 仔细 控制 对 这 些 数据 的 访问 。 
o 作用 力 数组 ， 除 了 邻居 列表 更 新 组 之 外 ， 其 他 每 个 分 组 都 使 用 。 
这 个 数组 对 于 位 置 更 新 组 是 只 读数 据 ， 而 被 化 学 键 作 用 力 组 和 非 化 学 键 作 用 力 组 用 作 累 
加 数据 。 因 为 位 置 更 新 组 必须 在 作用 力 计 算 完 成 之 后 〈 由 使 用 的 排序 任务 模式 所 确定 的 )， 所 
以 对 于 作用 力 分 组 将 这 个 数组 视 为 累加 类 型 ， 对 于 位 置 更 新 组 将 它 视 为 只 读 类 型 。 
分 子 动力 学 仿真 [MR95] 的 标准 程序 首先 初始 化 作用 力 数组 ， 作 为 每 个 UE 上 的 局 部 数 
组 。 然 后 ， 每 个 UE 计算 对 作用 力 数组 元 素 的 贡献 ， 其 中 对 精确 项 的 计算 是 不 可 预知 的 ， 因 
为 分 子 在 空间 上 出 现 折 倒 。 所 有 作用 力 计算 完成 之 后 ， 局 部 数组 被 归 约 到 单个 数组 中 ， 在 每 
个 UE 上 放置 一 份 它 的 副本 (更 多 信息 请 参考 6.4.2 节 对 归 约 的 讨论 )。 
e 邻居 列表 ， 被 非 化 学 键 作用 力 组 和 邻居 列表 更 新 组 所 共享 。 
对 于 邻居 列表 更 新 组 来 说 ， 邻 居 列 表 本 质 上 是 局 部 数据 ; 对 于 非 化 学 键 作 用 力 计 算 来 说 ， 
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邻居 列表 是 只 读数 据 。 列 表 可 以 放 在 每 个 UE 中 的 局 部 内 存 中 进行 管理 。 


3.7 ”设计 评估 模式 


1. 问题 

目前 ， 分 解 和 依赖 性 分 析 是 否 足 够 好 ， 以 至 于 可 以 转向 于 下 一 个 设计 空间 ， 还 是 应 当 重 
新 对 问题 进行 设计 ? 

2. 背景 

此 刻 ， 问 题 已 经 被 划分 成 多 个 能 够 并 发 执行 的 任务 ( 使 用 任务 分 解 模 式 和 数据 分 解 模 
式 )， 并 且 任 务 之 间 的 依赖 性 已 经 被 识别 出 来 (使 用 分 组 任务 模式 、 排 序 任务 模式 和 数据 共享 
模式 )。 尤 其 是 ， 原 始 问 题 经 过 分 解 和 分 析 ， 产 生 的 结果 如 下 : 

e 任务 分 解 识 别 出 多 个 能 够 并 发 执行 的 任务 ; 

e 数据 分 解 识 别 出 从 属于 每 个 任务 的 局 部 数据 ; 

e 分 组 任务 和 排序 分 组 满足 时 间 约 束 ; 

e 任务 间 的 依赖 性 分 析 。 

这 四 项 将 指导 设计 者 在 下 一 个 设计 空间 中 的 工作 ( 算法 结构 模式 )。 因 此 ， 正 确 使 用 这 些 
项 并 且 寻 找 对 问题 的 最 佳 分 解 方式 对 于 产生 一 个 高 质量 的 设计 是 非常 重要 的 。 

在 某 些 情形 中 ， 并 发 性 是 简单 的 ， 并 且 明 显存 在 一 种 分 解 问题 的 最 好 方式 。 但 是 ， 一 个 
问题 通常 存在 多 种 分 解 方式 。 因 此 ， 在 进行 进一步 的 设计 之 前 ， 重 要 的 是 ， 对 已 完成 的 设计 
进行 评估 ， 确 保 它 符合 应 用 的 需求 。 记 住 ， 算 法 设计 是 一 个 重复 的 过 程 ， 设 计 者 不 要 期 望 在 
第 一 次 执行 寻找 并 发 性 模式 时 就 能 产生 一 个 最 佳 设计 。 

3. 面临 的 问题 

需要 从 3 个 方面 来 评估 设计 。 

e 对 目标 平台 的 适用 性 。 类 似 处 理 器 数目 以 及 如 何 共 享 数据 结构 等 问题 将 对 任何 设计 的 

效率 产生 影响 。 然 而 ， 设 计 越 依赖 于 目标 体系 结构 ， 灵 活性 将 会 越 差 。 

e 设计 质量 。 所 期 望 的 简单 性 、 灵 活性 和 效率 可 能 会 产生 冲突 。 

e 为 设计 的 下 一 阶段 做 准备 。 任 务 和 依赖 性 是 规则 的 还 是 非 规则 的 ( 即 它们 的 大 小 是 相 

似 的 ， 还 是 差异 很 大 ) ? 任务 间 的 交互 是 同步 的 还 是 异步 的 ( 即 交 互 是 有 规律 的 周期 
发 生 ， 还 是 差异 很 大 甚至 随机 发 生 ) ? 这 些 任务 是 否 以 一 种 高 效 的 方式 聚合 在 一 起 ? 
明白 这 些 问题 将 有 助 于 从 算法 结构 设计 空间 的 模式 中 选择 一 种 合适 的 解决 方案 。 

4. 解决 方案 

在 转向 设计 空间 的 下 一 个 阶段 之 前 ， 根 据 本 节 前 面 提 到 的 3 种 角度 去 评估 目前 为 止 所 做 
的 工作 ， 是 有 帮助 的 。 这 种 模式 的 剩余 部 分 由 问题 和 讨论 组 成 ， 有 助 于 评估 。 

对 目标 平台 的 适用 性 。 尽 管 设 计 者 期 望 尽 可 能 延 反 将 一 个 程序 映射 到 一 个 特定 的 目标 平 
台 上 ， 但 是 确实 需要 至 少 在 评估 一 个 设计 时 考虑 目标 平台 的 特征 。 下 面 是 一 些 与 目标 平台 的 
选择 相关 的 问题 。 | 

多 少 个 PE 可 用 ? 在 某 些 例外 情形 下 ， 任 务 数 多 于 PE 数目 时 很 容易 使 PE 保持 繁忙 。 很 
显然 ， 在 任务 数目 固定 的 情形 下 ， 我 们 无 法 充分 利用 更 多 的 PE， 但 如 果 每 个 PE 只 处 理 一 个 
或 少数 几 个 任务 时 ， 负 载 均 衡 性 会 很 差 。 例 如 ， 考 虑 蒙特 卡 罗 仿 真 中 的 情形 ， 在 该 仿真 中 ， 
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计算 针对 随机 选择 的 不 同 数据 集 不 断 重 复 执行 ， 这 样 当 数据 差别 很 大 时 ， 计 算 所 花费 的 时 间 
也 过 然 不 同 。 开 发 一 个 并 行 算法 最 容易 想到 的 方法 是 将 每 个 计算 〈 针对 某 个 独立 的 数据 集 ) 
视 为 一 个 任务 ; 这 些 任 务 是 完全 独立 的 ， 可 以 对 它们 随意 调度 。 但 由 于 每 个 任务 所 执行 的 时 
间 差 异 很 大 ， 除 非 任务 数目 远 超 过 PE 的 数目 ， 否 则 很 难 获得 较 好 的 负载 均衡 。 

这 个 规则 的 例外 是 : 设计 中 任务 的 数目 可 以 随 着 PE 的 数目 进行 调整 ， 这 样 能 够 维护 良 
好 的 负载 平衡 。 此 类 设计 的 一 个 示例 是 3.3 节 中 描述 的 基于 数据 块 的 矩阵 相 乘 算法 。 在 该 算 
法 中 ， 任 务 对 应 于 数据 块 ， 所 有 任务 包含 大 致 相等 的 计算 量 ， 因 此 调整 任务 的 数目 与 PE 的 数 
目 相等 ， 将 得 到 一 个 具有 良好 负载 均衡 的 算法 〈 但 注意 的 是 ， 即 使 在 这 种 情形 中 ， 任 务 数 目 
超过 PE 数目 也 是 很 有 好 处 的 。 例 如 ， 这 将 允许 计算 和 通信 重 释 )。 

数据 结构 是 如 何在 PE 间 共 享 的 ? 如 果 设 计 中 包含 任务 间 大 规模 或 细 粒 度数 据 共享 ， 如 
果 所 有 的 任务 访问 同一 内 存 ， 这 个 设计 将 更 加 容易 实现 ， 并 且 效 率 更 高 。 实 现 的 难 易 程度 取 
决 于 编程 环境 ; 基于 共享 内 存 模型 (所 有 UE 共享 同一 块 地 址 空间 ) 的 环境 使 实现 具有 大 量 
数据 共享 的 设计 更 加 容易 实现 。 效 率 还 依赖 于 目标 机 融 ， 拥 有 大 量 数 据 共享 的 设计 在 一 个 对 
称 多 处 理 需 机 融 上 【其 中 所 有 的 处 理 吉 对 内 存 的 访问 时 间 是 一 致 的 ) 运行 可 能 比 在 一 台 共 享 
内 存 而 物理 内 存 是 分 布 的 机 右上 运行 的 效率 高 。 相 反 ， 如 果 要 在 一 个 分 布 式 内 存 体系 结构 上 
使 用 消息 传递 机 制 ， 则 拥有 大 量 数据 共享 的 设计 可 能 不 是 一 个 好 的 选择 。 

例如 ， 考 虑 3.2 节 描 述 的 医学 成 像 问题 中 基于 任务 的 方法 。 这 个 设计 需要 所 有 的 任务 读 
取 一 个 非常 大 型 的 数据 结构 ( 喘 体 模型 )。 在 共享 内 存 环 境 中 ， 这 不 会 出 现 问题 ; 而 在 一 个 分 
布 式 内 存 环境 中 ， 如 果 每 个 PE 目 身 拥有 一 个 很 大 的 内 存 子 系统 ， 并 且 具 有 足够 高 的 网 络 带 


宽 ， 可 以 处 理 对 大 型 数据 集 的 广播 ， 这样 也 不 会 出 现 问题 。 但 是 ， 在 一 个 内 存 和 网 路 带宽 资 ， 


源 有 限 的 分 布 式 内 存 环境 中 ， 需 要 强调 数据 分 解 在 算法 设计 中 的 重要 性 ， 因 为 这 能 够 提高 内 
存 的 利用 率 。 

需要 细 粒 度数 据 共 享 ( 相同 的 数据 结构 被 多 个 任务 重复 地 访问 ， 特 别 是 包含 读 和 写 的 操 
作 时 ) 的 设计 在 一 台 共享 内 存 机 器 中 也 可 能 运行 的 效率 更 高 ， 因 为 对 每 个 访问 进行 保护 所 带 
来 的 开销 很 可 能 小 于 在 一 台 分 布 式 内 存 机 器 中 所 需要 的 开销 。 

这 些 规则 的 例外 是 这 样 的 一 个 问题 : 将 任务 间 的 大 规模 或 细 粒 度 共 享 的 数据 仅 分 配给 相 
同 的 执行 单位 。 这 种 方式 很 容易 分 组 和 调度 任务 。 

目标 体系 结构 是 如 何 隐 含 UE 的 数目 ， 以 及 数据 结构 是 如 何在 UE 间 之 间 共 享 的 ? 事实 
上 ,我 们 回顾 前 面 的 这 两 个 问题 ， 只 考虑 了 UE， 而 不 是 PE. 

重要 的 区 别 是 : 如 果 目 标 计算 机 系统 依赖 于 在 每 个 PE 上 使 用 多 个 UE 以 隐藏 延迟 。 当 考 
虑 是 否 在 每 个 PE 上 使 用 多 个 UE 进行 设计 时 ， 需 要 牢记 两 个 因素 。 

首 个 因素 是 ， 目 标 计算 机 系统 是 否 为 每 个 PE 上 的 多 个 UE 提供 高 效 的 支持 。 某 些 系 统 提 
供 这 样 的 支持 ， 比 如 ，Cray MTA 机 大 和 具有 超 线 程 功 能 的 Intel 处 理 需 架构 的 机 器 。 这 样 的 
架构 对 快速 的 上 下 文 切换 提供 了 硬件 支持 ， 使 得 它 广 泛 应 用 于 隐藏 延迟 的 情形 中 。 其 他 系统 
不 能 为 单个 PE 上 使 用 多 个 UE 提供 好 的 支持 。 例 如 ，MPP 系统 具有 慢 速 的 上 下 文 切换 ， 或 
者 /并 且 每 个 节点 具有 一 个 处 理 顺 ， 仅 当 每 个 PE 只 有 一 个 UE 时 才能 更 好 地 运行 。 

第 二 个 考虑 的 因素 是 ， 当 每 个 PE 上 拥有 多 个 UE 时 ， 设 计 是 否 能 够 很 好 地 利用 它们 ， 例 
如 ， 如 果 设 计 包含 高 延迟 的 通信 操作 ， 则 为 每 个 PE 分 配 多 个 UE， 使 得 当 某 些 UE 在 等 待 某 
个 高 延迟 的 操作 时 ， 其 他 UE 可 以 继续 运行 ， 从 而 达到 隐藏 延迟 的 目的 。 但 是 ， 如 果 设 计 中 
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包含 的 通信 操作 是 紧密 同步 的 ( 例如， 数据 块 发 送 /接收 对 ) 并 且 相 对 高 效 ， 则 将 多 个 UE 分 
配给 每 个 PE 可 能 会 妨碍 设计 的 实现 ( 因为 需要 投入 额外 的 精力 来 避免 出 现 死 锁 )， 而 不 是 提 
高 效率 。 

在 目标 平台 上 ， 任 务 中 做 有 意义 的 工作 所 耗费 的 时 间 是 否 比 处 理 任务 依赖 性 所 耗费 的 时 
间 多 ? 确定 一 个 设计 是 否 高 效 的 关键 因素 是 完成 计算 所 耗费 的 时 间 与 通信 或 同步 所 耗费 的 时 
间 的 比值 。 比 值 越 高 ， 程 序 的 效率 也 就 越 高 。 这 个 比值 不 仅 受 设计 所 需 协 调 事件 的 数目 和 种 
类 的 影响 ， 还 受 目标 平台 特征 的 影响 。 例 如 ， 一 个 消息 传递 设计 在 一 台 具 有 快速 互连网 络 和 
相对 较 慢 的 处 理 器 的 MPP 机 器 上 运行 时 ， 效 率 是 可 以 接受 的 。 但 在 一 个 由 以 太 网 互 连 的 强大 
的 工作 站 网 络 上 运行 时 ， 效 率 可 能 变 得 更 加 低 ， 可 能 无 法 接受 。 

值得 注意 的 是 ， 这 个 重要 的 比值 同时 也 受 问 题 规模 的 影响 ， 而 问题 规模 与 可 用 的 PE 的 
数目 息息相关 。 对 于 规模 固定 的 问题 ， 每 个 处 理 器 完成 计算 所 耗费 的 时 间 伴 随 着 处 理 器 数目 
的 增加 而 减少 ， 与 此 同时 ， 每 个 处 理 器 耗费 在 通信 和 同步 的 时 间 可 能 保持 不 变 ， 或 者 甚至 随 
着 处 理 器 数目 的 增加 而 增加 。 

设计 质量 。 牢 记 目 标 平台 的 这 些 特 征 ， 我 们 可 以 从 这 三 个 方面 来 评估 设计 : 灵活 性 、 效 
率 和 简单 性 。 

灵活 性 。 我 们 希望 高 级 设计 能 够 适用 大 量 不 同 的 实现 需求 ， 当 然 是 所 有 重要 的 需求 。 本 
节余 下 的 部 分 将 提供 影响 灵活 性 的 部 分 因素 的 列表 。 


分 解 产 生 的 任务 数目 是 否 灵 活 ? 这 种 灵活 性 使 得 设计 能 够 适用 大 量 不 同类 型 的 并 行 计 
算 机 。 

任务 分 解 所 隐 含 的 任务 的 定义 是 否 独 立 于 它们 执行 时 的 调度 方式 ? 这 样 的 独立 性 使 得 
负载 平衡 问题 更 容易 得 到 解决 。 

数据 分 解 中 数据 块 的 大 小 和 数目 是 否 参数 化 了 ? 这样 参数 化 使 得 设计 更 容易 扩展 到 不 
同 数 目的 PE。 | 

算法 的 边界 情况 是 否 已 经 处 理 ? 一 个 好 的 设计 将 会 处 理 所 有 相关 的 情形 ， 甚 至 包括 不 
常见 的 情形 。 例 如 ,一 个 常用 的 操作 是 和 矩阵 转 置 ， 使 得 矩阵 的 列 数据 块 分 布 变 为 矩阵 
的 行 数 块 分 布 。 对 于 和 矩阵 的 秩 能 被 PE 数目 整除 的 方 阵 来 说 ， 很 容易 设计 算法 并 编写 
代码 。 但 是 如 果 和 矩阵 不 是 方 阵 ， 或 者 如 果 行 数目 大 于 列 数 目 ， 并 且 行 数目 和 列 数目 都 
不 能 被 PE 数目 整除 ， 又 会 怎样 呢 ? 这 需要 显著 地 改变 转 置 算法 。 比 如 ， 对 于 一 个 长 
方形 和 矩阵 来 说 ， 存 储 数 据 块 的 缓冲 区 需要 足够 大 ， 以 至 于 能 够 容纳 比 两 个 数据 块 更 大 
的 容量 。 如 果 和 矩阵 的 行 数目 和 列 数目 都 不 能 被 PE 数目 整除 ， 则 分 配给 每 个 PE 的 数据 
块 的 大 小 将 不 同 。 算 法 能 够 处 理由 于 每 个 PE 上 数据 块 大 小 不 同 而 造成 的 不 均匀 的 负 
载 吗 ? 


效率 。 程 序 应 当 高 效 地 利用 可 用 的 计算 资源 。 本 节 剩 余 的 部 分 将 给 出 需要 检查 的 部 分 重 
要 因素 的 列表 。 注 意 的 是 ， 同 时 优化 所 有 这 些 因素 通常 是 不 太 可 能 的 ， 因 此 在 设计 上 的 折衷 
是 不 可 避免 的 。 


计算 负载 能 够 是 否 在 PE 之 间 均 匀 分 配 ? 如 果 任 务 是 独立 的 ， 或 者 如 果 它 们 的 大 小 粗 
略 相等 ， 这 个 目标 很 容易 达到 。 

开销 是 否 已 经 最 小 化 了 ? 开销 源 于 以 下 几 种 : UE 的 创建 和 调度 以 及 通信 和 同步 。UE 
的 创建 和 调度 存在 开销 ， 因 此 每 个 UE 需要 处 理 足够 多 的 工作 来 抵消 这 些 开销 。 另 一 
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方面 ，UE 越 多 负载 平衡 越 好 。 

o 通信 也 是 一 种 主要 的 开销 源 ， 特 别 是 依赖 于 消息 传递 的 分 布 式 内 存 平 台 。2.6 BZW 
论 过 ,传输 一 条 消息 所 使 用 的 时 间 由 两 部 分 组 成 : 源 于 操作 系统 开销 和 消息 在 网 络 上 
启动 开销 所 产生 的 延迟 开销 ， 以 及 随 着 消息 长 度 的 增加 所 市 来 的 开销 。 为 了 最 小 化 延 
迟 开 销 ， 应 当 最 小 化 所 发 送 的 消息 数目 。 换 句 话 来 说 ， 小 数目 的 大 消息 优 于 大 数目 的 
小 消息 。 男 外 ， 通 信也 与 网 络 带 宽 有 关 ， 这 些 开 销 有 时 候 可 以 通过 重合 通信 和 计算 来 
隐藏 。 
在 共享 内 存 机 需 中 ， 同 步 是 一 种 主要 的 系统 开销 来 源 。 当 数据 被 UE 共享 时 ， 为 了 避 
免 竞争 条 件 ， 某 个 任务 需要 等 待 另 一 个 任务 ， 这 样 会 出 现 依赖 。 相 比 在 UE 上 进行 的 
大 量 操作 ， 用 于 控制 这 种 等 竺 的 同步 机 制 产生 的 开销 是 非常 昂贵 的 。 此 外 ， 某 些 同 步 
构造 产生 了 显著 的 内 存 流量 ， 因 为 它们 占 满 了 闪存 、 缓 冲 区 和 其 他 系统 资源 ， 以 确保 
所 有 UE 看 到 内 存 中 的 数据 是 一 致 的 。 这 种 额外 的 内 存 流量 能 够 妨碍 计算 中 显 式 的 数 
据 移动 。 通 过 保持 数据 对 任务 的 局 部 化 可 以 减少 同步 开销 ， 从 而 最 小 化 同步 操作 的 
频率 。 

简单 性 。 爱 因 斯 坦 的 名 言 : 使 事物 尽 可 能 简单 ， 而 不 只 是 稍微 简单 一 点 。 

需要 时 刻 牢 记 : 实际 上 所 有 的 程序 最 终 都 需要 调试 和 维护 ， 并 且 稼 和 常 需要 增强 功能 和 移 
植 。 一 个 设计 一 一 即使 一 个 完美 的 设计 一 一 如 果 它 太 难 于 调试 和 维护 ， 以 及 难以 验证 最 终 程 
序 的 正确 性 ， 这 样 的 设计 都 是 没有 价值 的 。 

3.1.3 节 描 述 的 医学 成 像 示 例 在 3.2 节 和 3.3 节 进 一 步 讨论 ， 在 文 持 简单 性 方面 是 一 个 很 
好 的 例子 。 在 这 个 问题 中 ,一 个 大 型 的 数据 块 被 分 解 ， 但 是 这 种 分 解 将 迫使 并 行 算法 添加 一 
些 复杂 的 操作 ， 用 于 在 UE 间 传 递 轨道 和 分 配 数 据 库 块 。 这 种 复杂 性 使 得 最 终 程序 非常 难以 
理解 ， 并 且 使 调试 变 得 非常 复杂 。 男 一 种 方法 是 复制 数据 库 ， 会 得 到 一 个 非常 简单 并 且 拥 有 
完全 独立 的 任务 的 并 行程 序 ， 这 些 任务 可 以 分 配给 多 个 工作 者 。 这 样 所 有 复杂 的 通信 都 消失 
了 ,程序 的 并 行 部 分 也 非常 易于 调试 和 分 析 。 

为 下 一 个 阶段 做 准备 。 借 助 寻找 并 发 性 模式 进行 问题 分 解 时 定义 了 一 些 重要 的 组 件 ， 这 
些 组 件 将 指导 算法 结构 设计 空间 中 的 设计 : 

e 任务 分 解 ， 识 别 能 够 并 发 执行 任务 ; 

e 数据 分 解 ， 识 别 出 从 属于 每 个 任务 的 局 部 数据 ; 

© 分 组 任务 和 排序 分 组 的 方法 以 满足 时 间 约束 ; 

© 任务 间 的 依赖 性 分 析 。 

在 转 癌 下 一 个 阶段 之 前 ， 针 对 下 面 的 一 些 问 题 来 考虑 这 些 组 件 。 

任务 和 它们 的 数据 依赖 性 的 规则 度 如 何 ? 规则 的 任务 是 那些 大 小 和 工作 量 都 相似 的 任务 。 
不 规则 的 任务 是 那些 相互 之 间 差 别 很 大 的 任务 。 如 果 任 务 是 不 规则 的 ， 则 任务 的 调度 和 它们 
的 数据 共享 都 将 非常 复杂 ， 都 需要 在 设计 中 注意 。 在 一 个 规则 的 分 解 中 ， 所 有 的 任务 在 某 种 
程度 上 都 是 相似 的 一 一 大 体 相 同 的 计算 量 ( 针对 不 同 的 数据 集 )， 在 与 其 他 任务 的 数据 共享 方 
面具 有 近似 相等 的 依赖 性 。 示 例 包括 在 3.2 节 、3.3 节 和 其 他 节 中 描述 的 各 种 矩阵 相 乘 算法 。 

在 一 个 不 规则 的 分 解 中 ， 每 个 任务 所 做 的 工作 与 数据 依赖 性 在 不 同 的 任务 中 差异 很 大 。 
例如 ， 考 虑 一 个 大 型 系统 中 的 某 个 离散 事件 仿真 ， 该 系统 由 大 量 不 同 的 组 件 构成 。 我 们 可 以 
为 这 个 仿真 定义 一 个 并 行 算法 ， 其 方式 是 为 每 一 个 组 件 定义 一 个 任务 ， 并 且 让 它们 基于 仿真 
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的 离散 事件 进行 交互 。 这 将 是 一 个 非常 不 规则 的 设计 ， 因 为 在 已 经 完成 的 工作 和 与 其 他 任务 
的 依赖 性 方面 ， 任 务 间 存在 巨大 的 差异 。 

任务 (或 任务 分 组 ) 间 的 交互 是 同步 的 还 是 异步 的 ? 在 某 些 设计 中 ， 任 务 间 的 交互 在 时 
间 方 面 也 是 非常 规则 的 一 一 即 同步 的 。 比 如 ， 一 个 线性 代数 问题 的 并 行 化 中 包含 对 某 个 大 型 
和 矩阵 的 更 新 ， 典 型 做 法 是 在 将 和 矩阵 划分 给 多 个 任务 ， 每 一 个 任务 使 用 它 自 己 的 数据 ， 利 用 和 拖 
阵 的 其 他 部 分 数据 来 更 新 自身 拥有 的 和 矩阵 部 分 。 假 设 所 有 需要 更 新 的 数据 在 开始 计算 时 提供 ， 
这 些 任务 一 般 首 先 交 换 信息 ， 然 后 独立 地 计算 。 另 一 种 类 型 的 示例 是 流水 线 计 工 〈 详情 参考 
4.8 节 )， 其 中 我 们 对 一 个 输入 数据 集 序 列 执行 一 个 多 步 操 作 ， 通 过 建立 一 个 任务 流水 线 (每 
个 任务 对 应 一 个 操作 )， 当 某 个 任务 完成 它 的 工作 时 ， 数 据 从 一 个 任务 流向 另 一 个 任务 。 当 所 
有 任务 的 步调 基本 一 致 时 ， 这 种 方法 将 能 够 很 好 地 工作 一 一 即 如 果 它 们 的 交互 是 同步 的 。 

而 在 另外 一 些 设计 中 ,任务 间 的 交互 并 不 是 那么 规则 。 如 前 面 描述 的 离散 事件 模拟 示例 ， 
其 中 事件 使 得 任务 间 的 交互 变 得 不 规整 。 

任务 是 以 最 佳 的 方式 分 组 的 吗 ? 时 间 关 联 非常 容易 识别 : 能 够 在 同一 时 间 内 运行 的 任务 
能 够 很 自然 地 分 组 在 一 起 。 但 是 一 个 高 效 的 设计 也 需要 基于 整个 问题 中 的 逻辑 关系 对 任务 进 
行 分 组 。 

作为 分 组 任务 的 一 个 示例 ， 考 虑 3.4 节 、3.5 节 和 3.6 节 的 示例 部 分 中 所 讨论 的 分 子 动力 
学 问题 。 最 终 我 们 所 得 到 的 分 组 具有 层次 性 ( 见 3.4 节 ) : 基于 问题 的 高 级 操作 的 相关 任务 分 
组 ， 基 于 能 够 并 发 执行 的 那些 任务 进一步 分 组 。 这 种 方法 更 容易 推导 出 设计 是 否 满足 所 要 求 
的 约束 ( 因为 约束 可 以 根据 高 级 操作 所 定义 的 任务 分 组 来 描述 )， 同 时 也 考虑 到 了 调度 的 灵 
活性 。 
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昔 助 于 寻找 并 发 性 设计 空间 中 的 模式 揭示 了 问题 中 的 并 发 性 。 分 析 过 程 中 的 关键 元 素 如 
FB: 

e 任务 分 解 ， 识 别 出 多 个 能 够 并 发 执行 的 任务 ; 

e 数据 分 解 ， 识 别 出 从 属于 每 个 任务 的 局 部 数据 ; 

e 分 组 任务 和 排序 分 组 的 方式 以 满足 时 间 约 束 ; 

e 任务 之 间 的 依赖 性 分 析 。 

一 门 模式 语言 过 去 被 描述 成 一 张 模式 网 ， 其 中 一 种 模式 以 逻辑 方式 连接 到 下 一 个 模式 ， 
但 是 ， 寻 找 并 发 性 设计 空间 的 输出 并 不 符合 这 种 情况 。 而 设计 空间 的 目标 是 帮助 设计 者 创建 
一 些 设计 元 素 ， 这 些 元 素 一 起 通 向 模式 语言 的 剩余 部 分 。 
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设计 并 行 算法 的 第 一 阶段 是 分 析 问 题 并 明确 可 利用 的 并 发 性 ， 这 经 常 通过 寻找 并 发 性 设 
计 空 间 模式 来 实现 。 寻 找 并 发 性 设计 空间 的 输出 是 将 问题 分 解 为 多 个 设计 元 素 : 

e 任务 分 解 ， 识 别 出 多 个 可 以 并 发 执行 的 任务 ; 

e 数据 分 解 ， 识 别 出 每 个 任务 所 需要 的 局 部 数据 ; 

e 任务 分 组 和 分 组 排序 的 方式 ， 以 满足 时 间 约束 ; 

© 任务 间 依赖 性 分 析 。 

这 些 元 素 提供 了 从 寻找 并 发 性 设计 空间 到 算法 结构 设计 空间 的 连接 。 算 法 结构 设计 空间 
的 目标 是 细 化 设计 ， 使 得 该 设计 更 接近 于 在 一 台 并 行 计算 机 上 通过 映射 并 发 任务 到 多 个 UE， 
实现 并 发 执行 的 程序 。 

在 定义 算法 结构 的 很 多 方式 中 ， 多 数 都 遵循 6 种 基本 设计 模式 中 的 一 种 。 这 些 模式 组 成 
了 算法 结构 设计 空间 。 这 种 设计 空间 的 总 体 框图 及 其 在 模式 语言 中 的 位 置 如 图 4-1 所 示 。 


寻找 并 发 性 





本 
图 4-1 算法 结构 设计 空间 的 总 体 框图 及 其 在 模式 语言 中 的 位 置 


该 阶段 的 关键 问题 是 确定 哪 种 模式 或 者 哪些 模式 最 适合 具体 的 问题 。 
Hc, 我 们 需要 记 住 的 是 : 从 不 同 的 方面 分 析 问 题 ， 可 以 将 设计 引 向 不 同 的 方向 ; 从 某 
一 方面 分 析 可 能 建议 使 用 某 种 结构 ， 而 从 另 一 个 方面 分 析 可 能 建议 使 用 另外 一 种 结构 。 但 是 ， 
在 几乎 所 有 情况 下 ， 都 需要 牢记 以 下 几 点 。 
e 效率 。 并 行程 序 能 够 快速 运行 并 充分 利用 计算 机 资源 。 
e 简单 性 。 一 个 简单 的 算法 将 产生 易于 理解 的 代码 ， 且 代码 易于 开发 、 调 试 、 验 证 和 
修改 。 
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e 可 移植 性 。 理 论 上 ， 程 序 应 当 能 够 在 多 种 不 同类 型 的 并 行 计算 机 上 运行 。 这 将 使 某 种 
特定 程序 的 “市 场 ”最 大 化 。 更 重要 的 是 ， 一 个 程序 可 以 使 用 多 年 ， 而 任何 特定 的 计 
算 机 系统 仅 能 够 使 用 几 年 。 可 移植 的 程序 保护 了 软件 的 投资 。 
e 可 扩展 性 。 理 论 上 ， 一 个 算法 应 当 能 够 在 从 几 个 到 数 百 甚至 上 千 个 处 理 元 素 (PE ) 上 
高 效 地 运行 。 
但 是 ， 这 些 要 求 在 几 个 方面 都 相互 冲突 。 
效率 与 可 移植 性 冲突 : 为 了 使 得 程序 高 效 ， 几 乎 总 要 考虑 运行 程序 的 目标 系统 的 特点 ， 
这 样 会 限制 程序 的 可 移植 性 。 结 合 特定 系统 或 者 编程 环境 特性 的 设计 可 以 产生 在 特定 系统 上 
高 效 运行 的 程序 ， 但 是 在 其 他 不 同 的 平台 上 变 得 不 可 使 用 ， 要么 是 因为 性 能 太 差 ,要 么 是 在 
新 的 平台 上 难以 实现 或 者 根本 无 法 实现 。 
效率 与 简单 性 冲突 : 例如 ， 为 了 编写 一 个 使 用 了 任务 并 行 模式 的 高 效 程序 ， 有 时 需要 采 
用 复杂 的 调度 算法 。 但 是 ， 在 许多 情况 下 ， 这 些 调度 算法 使 程序 变 得 难以 理解 。 
因此 ， 一 个 好 的 算法 设计 必须 在 以 下 两 方面 取得 平衡 : 中 抽象 性 和 可 移植 性 ; Qi Ae 
定 的 目标 体系 结构 。 设 计 者 面临 的 挑战 ， 特 别 是 在 算法 设计 的 初级 阶段 ， 是 使 得 并 行 算法 设 
计 足 够 抽象 来 文 持 可 移植 性 ， 但 同时 要 确保 它 最 终 能 够 高 效 地 在 即将 运行 的 并 行 系统 上 实现 。 


4.2 选择 一 种 算法 结构 设计 模式 
通过 考虑 下 面 描述 的 问题 ， 可 以 为 给 定 问 题 寻找 一 种 高 效 的 算法 结构 模式 。 
4.2.4 目标 平台 


目标 机 器 或 者 编程 环境 对 并 行 算 法 的 约束 是 什么 呢 ? 

理想 情况 下 ， 在 设计 阶段 不 必 考 虑 目标 平台 的 细节 ， 因 为 这 样 做 会 不 利于 保持 程序 的 可 
移植 性 和 可 扩展 性 。 然 而 ， 现 实 中 不 考虑 目标 平台 的 主要 特征 而 设计 的 软件 很 可 能 无 法 有 效 
地 运行 。 

主要 问题 是 系统 能 够 有 效 地 支持 多 少 执行 单元 ( UE )， 因 为 一 个 算法 能 在 10 个 UE 上 很 
好 地 工作 ,但 在 上 百 个 UE 的 情况 下 可 能 就 无 法 很 好 地 工作 了 。 明 确 具体 的 UE 数目 是 没 必 
要 的 (事实 上 ,那样 做 将 严重 地 限制 设计 的 适用 性 )， 但 是 牢记 UE 数目 的 数量 级 是 非常 重要 
的 。 

男 一 个 问题 是 ， 在 UE 间 共 享 信息 的 开销 是 否 昂贵 。 如 果 具 有 共享 内 存 的 硬件 支持 ， 
信息 交换 通过 对 存储 胡 的 共享 访问 实现 ， 频 党 的 数据 共享 是 可 行 的 。 然 而 ， 如 果 目 标 平 
台 是 通过 慢 速 网 络 连接 的 节点 集合 ， 共 享 信息 所 需要 的 通信 开销 是 昂贵 的 ， 必 须 尽 可 能 
避免。 

考虑 UE 的 数目 和 共享 信息 的 开销 这 两 个 问题 时 ， 应 避免 过 分 地 约束 设计 。 通 常 ， 软 件 
比 硬件 使 用 时 间 长 ， 因 此 在 软件 的 整个 生命 过 程 中 ， 它 可 能 被 用 在 许多 不 同类 型 的 目标 平台 
上 。 设 计 的 目标 是 获得 一 个 能 够 在 初始 目标 平台 上 工作 良好 的 设计 ， 但 同时 具有 足够 的 灵活 
性 ， 以 适应 不 同类 型 的 硬件 。 

最 后 ， 除 了 考虑 多 个 UE 和 在 UE 间 共 享 信息 的 方式 外 ， 并 行 计算 机 还 有 一 个 或 者 多 个 
用 于 实现 并 行 算法 的 编程 环境 。 不 同 的 编程 环境 提供 不 同 的 方式 来 创建 任务 和 在 不 同 UE 之 
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间 共 享 信息 ， 所 以 ， 无 法 很 好 地 映射 到 目标 编程 环境 的 特征 的 设计 很 难 实现 。 
4.2.2 主要 组 织 原 则 


考虑 问题 的 并 发 性 时 ， 是 否 存在 一 种 特殊 方法 用 于 查看 是 否 支 持 并 提供 组 织 该 并 发 性 的 
高 级 机 制 ? | 

寻找 并 发 性 设计 空间 中 的 模式 分 析 ， 根 据 任 务 和 任务 分 组 、 数 据 (共享 的 和 局 部 任务 
的 )、 任 务 分 组 间 的 顺序 约束 描述 了 潜在 的 并 发 性 。 下 一 步 是 寻找 一 个 算法 结构 来 描述 如 何 将 
这 种 并 发 性 映射 到 UE 上 。 通 常 并 发 性 隐 含 了 一 些 主要 组 织 原 则 。 这 些 组 织 原则 主要 分 为 三 
种 类 型 ， 基 于 任务 的 组 织 、 基 于 数据 分 解 的 组 织 和 基于 数据 流 的 组 织 。 现 在 我 们 进一步 考虑 
这 些 组 织 原则 的 细节 。 

对 于 某 些 问 题 ， 在 某 一 时 刻 ， 实 际 上 只 有 一 个 任务 分 组 处 于 活跃 状态 ， 这 个 任务 分 组 内 
任务 之 间 的 交互 方式 是 并 发 性 的 主要 特征 。 所 谓 的 易 并 行程 序 就 是 一 个 很 好 的 例子 ， 在 该 程 
序 中 ,任务 之 间 是 完全 独立 的 。 还 有 一 些 程序 ， 单 个 分 组 内 的 任务 通过 相互 合作 来 完成 一 个 
结果 的 计算 。 

对 于 另外 一 些 问 题 ， 以 数据 分 解 的 方式 和 任务 间 数 据 共享 的 方式 作为 主要 的 方法 来 组 织 
并 发 性 。 例 如 ， 许 多 问题 关注 少数 大 型 数据 结构 的 更 新 ， 考 虑 并 发 性 最 有 效 的 方法 是 看 这 个 
结构 是 如 何在 UE 之 间 分 解 和 分 配 的 。 求 解 微分 方程 和 进行 线性 代数 计算 的 程序 通常 属于 这 
一 类 ， 因 为 它们 会 频繁 地 对 大 型 数据 结构 进行 更 新 。 

最 后 ， 对 于 某 些 问题 ， 并 发 性 的 最 大 特征 存在 于 明确 定义 的 交互 的 任务 分 组 中 ， 关 键 问 
题 是 了 解数 据 在 任务 间 如 何 流动 。 例 如 ， 在 信和 号 处 理应 用 中 ， 数 据 从 一 个 被 组 织 为 流水 线 的 
任务 序列 中 流 过 ， 每 个 任务 对 连续 的 数据 元 素 完 成 一 次 转换 。 或 者 ， 在 一 个 离散 事件 的 模拟 
中 ， 可 以 通过 将 其 分 解 为 多 个 基于 “事件 ”交互 的 任务 ， 将 其 并 行 化 。 因 此 ， 并 发 性 的 主要 
特征 是 这 些 不 同 任务 分 组 的 交互 方式 。 

此 外 ， 还 需要 注意 的 是 ， 最 有 效 的 并 行 算法 设计 需要 利用 多 个 算法 结构 ( 以 分 层 、 合成 
和 顺序 方式 组 合 )， 这 也 是 考虑 一 个 设计 是 否 有 意义 的 关键 。 例 如 ， 设 计 的 最 高 水 平常 常 是 一 
个 或 者 多 个 算法 结构 模式 的 顺序 组 合 。 而 某 些 设计 可 能 以 分 层 方 式 组 织 ， 其 中 一 个 模式 用 于 

组 织 主要 任务 分 组 之 间 的 交互 ， 其 他 的 模式 用 于 组 织 各 个 分 组 内 部 的 任务 ， 例 如 ， 在 流水 线 
模式 的 实例 中 ， 其 中 每 一 个 阶段 都 是 任务 并 行 模式 的 一 个 实例 。 


4.2.3 算法 结构 决策 树 


对 于 每 一 个 任务 子 集 ， 哪 种 算法 结构 设计 模式 能 够 最 有 效 地 完成 从 任务 到 UE 的 映射 ? 

考虑 完 前 面 几 小 市 提出 的 问题 后 ， 通 过 很 好 地 理解 目标 平台 所 强制 的 约束 、 分 层 和 合成 
的 角色 ， 以 及 问题 的 一 个 重要 组 织 原 则 ， 我 们 准备 选择 一 个 算法 结构 。 决 策 由 图 4-2 所 示 的 
决策 树 引 导 。 从 树 的 顶层 开始 ， 考 虑 并 发 性 和 主要 的 组 织 原则 ， 使 用 这 些 信 息 选 择 树 的 3 个 
分 文 之 一 ， 然 后 讨论 所 选 的 子 树 。 注 意 ， 对 于 某 些 问题 ， 最 终 的 设计 可 能 组 合 了 多 个 算法 结 
构 : 如 果 没 有 单个 结构 适合 所 解决 的 问题 ， 则 可 能 需要 将 组 成 问题 的 任务 划分 为 两 个 或 者 多 
个 分 组 ， 对 于 每 个 分 组 独立 地 进行 这 个 过 程 ， 然 后 确定 如 何 组 合 最 终 的 算法 结构 。 
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图 4-2 算法 结构 设计 空间 的 决策 树 


通过 任务 来 组 织 。 当 任务 自身 的 执行 是 最 好 的 组 织 原则 时 ， 选 择 通过 任务 来 组 织 分 支 。 
然后 确定 任务 是 如 何 枚 举 的 。 如 果 这 些 任务 可 以 聚集 为 一 个 任意 维度 的 线性 集合 ， 选 择 任 务 
并 行 模式 。 这 种 模式 包含 两 种 情形 : 一 种 是 任务 间 相互 独立 ( 即 所 谓 的 易 并 行 算法 ); 另 一 种 
是 任务 间 有 某 些 依赖 ， 具 体 表现 形式 是 任务 间 需 要 访问 共享 数据 或 者 需要 交换 消息 。 如 果 任 
务 由 一 个 递归 过 程 枚 举 ， 选 择 分 治 模式 。 在 这 种 模式 中 ， 问 题 的 求解 方式 是 : 将 问题 递归 地 
划分 为 多 个 子 问题 ， 独 立地 求解 每 一 个 子 问题 ， 最 后 将 这 些 子 问题 解决 方案 重新 合并 为 原始 
问题 的 解决 方法 。 

通过 数据 分 解 来 组 织 。 理 解 并 发 性 过 程 中 ， 当 数据 分 解 是 主要 的 组 织 原 则 时 ， 选 择 通过 
数据 分 解 来 组 织 分 支 。 在 该 组 织 中 存在 两 种 模式 ， 两 种 方式 的 不 同 点 是 分 解 的 构造 方式 不 同 ， 
一 种 是 线性 方式 ， 另 一 种 是 递归 方式 。 当 问题 空间 被 划分 为 多 个 离散 的 子 空 间 ， 问 题 的 求解 
通过 计算 每 一 个 子 空间 的 解决 方案 实现 ， 而 每 一 个 子 空间 的 解决 方案 通常 需要 使 用 其 他 几 个 
子 空 间 的 数据 时 ， 选 择 几 何 分 解 模式 。 在 科学 计算 领域 ， 这 种 模式 非常 常见 ， 它 在 基于 网 格 
的 并 行 计算 中 作用 明显 。 当 问题 根据 一 个 递归 数据 结构 ( 例如 ， 二叉树 ) 定义 时 ， 选 择 递 归 
数据 模式 。 

通过 数据 流 来 组 织 。 当 主要 的 组 织 原则 是 数据 流 对 任务 分 组 强制 一 种 顺序 的 方式 时 ， 选 
择 通过 数据 流 来 组 织 分 支 。 这 种 模式 有 两 种 ， 当 顺序 是 规则 的 和 静态 的 时 ， 应 用 其 中 一 种 ; 
当 它 是 不 规则 的 和 动态 的 时 ， 应 用 另外 一 种 。 当 任务 分 组 间 的 数据 流 是 规则 的 、 单 向 的 ， 并 
且 在 算法 期 间 ( 即 任务 分 组 可 以 组 织 为 一 个 流水 线 ， 数 据 流 流 过 该 流水 线 ) 不 发 生变 化 时 ， 
选择 流水 线 模式 。 当 数据 流 是 非 规则 的 、 动 态 的 和 /或 不 可 预测 ( 即 通过 事件 同步 ， 任 务 分 
组 可 以 交互 ) 时 ， 选 择 基于 事件 的 协作 模式 。 


4.2.4 重新 评估 


算法 结构 模式 适用 于 目标 平台 吗 ? 对 所 选择 的 决策 频繁 地 复审 ， 以 确信 所 选择 的 模式 能 
够 很 好 地 适用 于 目标 平台 是 非常 重要 的 。 

在 设计 中 ， 选 择 一 个 或 者 多 个 算法 结构 模式 之 后 ， 浏 览 它们 的 描述 ， 以 确信 它们 适合 于 
目标 平台 ( 例如， 如 果 目 标 平台 由 大 量 的 通过 慢 速 网 络 连 接 的 工作 站 组 成 ,并且 所 选择 的 算 
法 结构 模式 之 一 需要 频 蚂 地 进行 任务 间 通 信 ， 可 能 很 难 有 效 地 实现 这 个 设计 )。 如 果 所 选择 的 
模式 不 能 够 适合 目标 平台 ， 尝 试 男 外 一 种 组 织 原 则 ， 并 重新 进行 前 面 的 过 程 。 
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4.3 示例 
4.3.1 ”医学 成 像 


例如 ,考虑 3.1.3 节 描述 的 医学 成 像 问题 。 这 个 应 用 程序 模拟 了 大 量 的 伽 马 射线 穿 透 身 
体 ， 并 输出 到 照相 机 的 过 程 。 描 述 并 发 性 的 一 种 方式 是 将 每 条 射线 的 仿真 定义 为 一 个 任务 。 
因为 它们 在 逻辑 上 是 等 价 的 ， 所 以 我 们 将 它们 放置 到 单个 任务 分 组 中 。 任 务 间 仅 有 的 共享 数 
据 是 表示 身体 的 一 个 大 型 数据 结构 ， 因 为 要 访问 的 数据 结构 是 只 读 的 ， 所 以 任务 间 彼此 独立 。 

因为 该 问题 中 具有 许多 独立 的 任务 ， 所 以 可 以 较 少 地 考虑 目标 平台 的 特征 : 任务 数量 较 
大 ， 意 味 着 我 们 能 够 高 效 地 使 用 任意 合理 数目 的 UE ;任务 之 间 相互 独立 ， 意 味 着 任务 间 共 享 
信息 的 开销 不 会 对 性 能 产生 很 大 的 影响 。 

这 样 ， 利 用 图 4-2 所 示 的 决策 树 ， 我 们 应 该 能 够 选择 一 种 合适 的 结构 。 在 这 个 问题 中 ， 
任务 是 相互 独立 的 ， 我 们 所 顾虑 的 问题 是 当 我 们 选择 一 种 算法 结构 后 ， 如 何 将 这 些 任务 映射 
到 UE。 针 对 该 问题 ， 主 要 的 组 织 原则 是 任务 的 组 织 方式 ， 因 此 ， 我 们 选择 从 通过 任务 来 组 织 
分 支 开 始 。 

现在 我 们 考虑 所 指定 的 任务 集 的 属性 一 任务 集中 的 任务 是 按 层次 排列 还 是 驻 留 在 一 个 
非 结构 化 或 平面 的 集合 中 。 对 于 这 个 问题 ， 任 务 位 于 一 个 非 结构 化 的 集合 中 ， 它 们 之 间 没有 
明显 的 层次 结构 ， 因 此 我 们 选择 任务 并 行 模式 。 注 意 ， 在 这 个 问题 中 ,我 们 可 以 利用 任务 是 
独立 的 这 个 事实 来 简化 求解 过 程 。 

最 后 ， 我 们 从 可 能 使 用 的 目标 平台 重新 评估 该 决策 。 正 如 我 们 前 面 所 观察 到 的 ， 这 个 问 
题 的 关键 特征 ( 任务 数目 巨大 并 且 任务 是 相互 独立 的 ) 使 得 我 们 不 需要 重新 考虑 这 个 决策 ， 
因为 我 们 所 选择 的 结构 将 难以 在 目标 平台 上 实现 。 


4.3.2 ”分 子 动力 学 


以 3.1.3 市 描 述 的 分 子 动力 学 问题 作为 第 二 个 示例 。 在 任务 分 解 模式 中 ， 与 这 个 问题 相关 
的 任务 分 组 如 下 : 

e 寻找 一 个 原子 上 振动 作用 力 的 任务 ; 

© 寻找 一 个 原子 上 旋转 作用 力 的 任务 ; 

e 寻找 一 个 原子 上 非 化 学 键 作 用 力 的 任务 ; 

e 更 新 一 个 原子 位 置 和 速度 的 任务 ; 

e. 为 所 有 原子 更 新 邻居 列表 的 任务 。 

在 每 一 个 分 组 内 部 ， 把 任务 表示 为 关于 分 子 系统 内 部 所 有 原子 的 每 一 次 循环 的 迭代 。 

利用 图 4-2 所 示 的 决策 树 我 们 可 以 选择 一 个 合适 的 算法 结构 。 一 种 选择 是 根据 任务 分 组 
间 的 数据 流 来 组 织 并 行 算法 。 注 意 ， 仅 有 前 面 三 个 任务 分 组 ( 振动 作用 力 、 旋 转 作 用 力 和 非 
化 学 键 作用 力 的 计算 ) 可 以 并 发 地 执行 ， 即 在 更 新 原子 位 置 、 速 度 和 邻居 列表 之 前 ， 必 须 
完成 对 它们 的 计算 。 这 不 是 完全 的 并 发 执行 ， 因 此 应 当 使 用 图 4-2 中 的 不 同 分 支 来 求解 这 个 
问题 。 

故 一 种 选择 是 根据 每 一 个 分 组 中 的 任务 集合 来 获得 可 挖掘 的 并 发 性 ， 在 这 个 示例 中 ， 任 
务 是 关于 原子 循环 的 每 一 次 迭代 。 建 议 采 用 一 种 由 线性 排列 的 任务 组 织 的 方式 ,或 者 基于 图 
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4-2 使 用 任务 并 行 模式 。 可 挖掘 的 总 的 并 发 性 是 非常 大 的 〈 根据 原子 数目 的 数量 级 )， 这 为 设 
计 并 行 算法 提供 了 很 大 的 灵活 性 。 

对 于 这 个 问题 ， 目 标 机 器 对 并 行 算法 具有 重要 的 影响 。 数 据 分 解 模 式 中 讨论 的 依赖 性 
(将 坐标 复制 到 每 一 个 UE 上 ， 并 对 每 一 个 UE 上 的 部 分 和 归 约 ， 以 计算 出 一 个 全 局 作用 力 数 
组 ) 表明 将 需要 在 UE 间 传 递 2x 3 xN (NN 是 所 有 原子 的 数目 ) 项 。 但 是 ， 计 算 的 数量 级 是 
nN， 其 中 是 每 一 个 原子 的 邻居 原子 的 数目 ， 而 且 远 小 于 入。 因此 ， 通 信和 计算 具有 相同 的 
数量 级 ,通信 开销 的 管理 将 是 设计 算法 时 要 考虑 的 关键 因素 。 


44 任务 并 行 模式 


1. 问题 
当 把 问题 恰当 地 分 解 为 一 个 能 够 并 发 执行 的 任务 集合 时 ， 如 何 高 效 地 控 气 这 种 并 发 性 ? 
2. 背景 
从 根本 上 来 说 ， 每 一 个 并 行 算法 都 是 一 个 并 发 任务 集合 。 这 些 任 务 及 其 之 间 的 依赖 性 可 
以 通过 观察 ( 对 于 简单 的 问题 ) 或 通过 应 用 寻找 并 发 性 设计 空间 中 的 模式 来 识别 。 对 于 某 些 
问题 ， 聚 焦 于 这 些 任务 本 身 及 其 之 间 的 交互 可 能 不 是 组 织 算法 的 最 佳 方式 ， 在 某 些 情形 中 ， 
根据 数据 ( 如 在 几何 分 解 模式 中 ) 或 者 根据 并 发 任务 间 的 数据 流 ( 如 在 流水 线 模式 中 ) 组 织 
任务 是 可 行 的 。 但 是 ， 在 许多 情形 中 ， 最 好 直接 利用 任务 本 身 来 组 织 。 当 直接 基于 任务 设计 
算法 时 ， 称 算法 为 任务 并 行 算法 。 
任务 并 行 算法 分 类 非常 多 ， 包 括 以 下 一 些 示例 。 
© 任务 分 解 模式 中 描述 的 医学 成 像 示例 中 的 射线 追踪 代码 : 与 每 一 条 “射线 ”相关 的 计 
算 成 为 一 个 单独 的 并 且 完全 独立 的 任务 。 
o 任务 分 解 模 式 中 描述 的 分 子 动力 学 示例 : 每 一 个 原子 上 非 化 学 键 作用 力 的 更 新 是 一 个 
任务 。 通 过 将 作用 力 数组 复制 到 每 一 个 UE 中 ， 以 获取 每 个 原子 作用 力 的 部 分 和 来 处 
理 任 务 间 的 依赖 性 。 当 所 有 的 任务 计算 完 它们 对 非 化 学 键 作 用 力 的 贡献 后 ， 每 个 作用 
力 数组 被 组 合 ( 或 “ 归 约 ”) 为 一 个 存储 每 个 原子 的 非 化 学 键 作 用 力 总 和 的 数组 。 
© 分 支 界 限 计算 法 : 在 该 方法 中 ， 问 题 的 求解 方式 是 重复 地 从 解决 方案 空间 的 一 个 列表 
中 取出 一 个 解决 方案 空间 ， 检 测 它 ， 或 者 声明 它 为 一 个 解决 方案 并 丢弃 它 ， 或 者 将 其 
划分 为 多 个 更 小 的 解决 方案 空间 ， 然 后 将 这 些小 的 解决 方案 空间 添加 到 解决 方案 空间 
列表 中 。 通 过 将 每 一 个 “检测 与 处 理 一 个 解决 方案 空间 ”步骤 视 作 一 个 单独 的 任务 ， 
可 以 将 计算 并 行 化 。 在 共享 的 任务 队列 中 ， 任 务 间 的 依赖 性 逐渐 减弱 。 
通常 ， 问 题 可 以 分 解 为 能 够 并 发 执行 的 任务 集合 。 任 务 可 以 是 完全 独立 的 〈 如 医学 成 像 
示例 ) 或 者 任务 间 存 在 依赖 性 ( 如 分 子 动力 学 示例 )。 在 大 多 数 情形 中 ， 任 务 将 与 循环 的 迭代 
相关 ， 但 也 可 以 将 它们 与 大 规模 的 程序 结构 联系 起 来 。 
在 许多 情形 中 ， 所 有 的 任务 在 计算 开始 时 就 已 经 知道 (前 面 两 个 示例 )。 但 是 ， 在 某 些 情 
形 中 ， 随 着 计算 的 展开 ， 动 态 地 创建 任务 ， 如 分 支 界 限 示 例 。 
另外 ， 通 常 所 有 的 任务 在 问题 得 到 解决 之 前 必须 完成 ， 但 是 对 于 某 些 问题 ， 可 能 并 不 需 
要 完成 所 有 的 任务 ， 就 可 以 解决 问题 。 例 如 ， 在 分 支 界 限 示 例 中 ， 我 们 有 一 个 对 应 解决 方案 
室 间 的 任务 池 以 备 搜索 ， 在 这 个 池 中 的 所 有 任务 完成 前 ， 我 们 可 能 已 经 找到 一 个 可 接受 的 解 


ESAE" ite i 45 


决 方案 。 
3. 面临 的 问题 
e 为 了 挖掘 问题 中 潜在 的 并 发 性 ， 我 们 必须 将 任务 分 配给 UE。 理 想 情 况 下 ， 我 们 想 以 
一 种 简单 、 可 移植 、 可 扩展 和 高 效 的 方式 完成 这 个 工作 。 但 是 ， 如 4.1 市 所 述 ， 这 些 
目标 可 能 是 相互 冲突 的 。 要 考虑 的 重点 是 如 何平 衡 负 载 ， 即 确保 所 有 的 UE 具有 大 致 
相等 的 工作 量 。 
e 如 果 任 务 以 某 种 方式 (通过 顺序 约束 或 者 数据 依赖 性 ) 相互 依赖 ， 则 这 些 依赖 性 必须 
正确 地 处 理 。 青 一 次 记 住 以 下 几 个 有 时 会 冲突 的 目标 : 简单 性 、 可 移植 性 、 可 扩展 性 
和 效率 。 
4. 解决 方案 
任务 并 行 算 法 的 设计 包含 3 个 主要 元 素 : 任务 和 它们 的 定义 方式 ， 任 务 间 的 依赖 性 ， 以 
及 调度 ( 任务 怎样 分 配 到 UE )。 我 们 将 对 它们 分 别 讨论 ， 但 事实 上 它们 紧密 相连 ， 在 确定 最 
终 决 策 前 ， 必 须 全 面 地 考虑 三 者 。 考 虑 完 这 些 因 素 之 后 ,我 们 需要 再 全 面 检查 整个 程序 结构 ， 
然后 检查 这 种 模式 的 某 些 重要 的 特例 。 
任务 。 理 想 情况 下 ,任务 分 解 应当 满 足 两 个 标准 : 第 一 ， 任 务 的 数目 至 少 与 UE 的 数目 
一 样 多 ， 当 然 越 多 越 好 ， 确 保 调 度 时 具有 很 大 的 灵活 性 。 第 二 ， 与 各 个 任务 相关 联 的 计算 量 
必须 足够 多 ， 以 此 来 抵消 与 任务 管理 和 处 理 任 何 依 赖 性 相关 的 开销 。 如 果 初 始 的 分 解 不 能 满 
足 这 两 个 标准 ， 则 需要 考虑 是 否 采 用 另外 一 种 能 够 满足 这 两 个 标准 的 分 解 方式 。 
例如 ， 在 图 像 处 理应 用 中 ， 每 一 个 像素 的 更 新 是 独立 的 ， 任 务 的 定义 可 以 是 单独 的 像素 、 
线条 ， 甚 至 是 图 像 中 的 一 块 。 在 一 个 具有 少量 节点 并 且 由 慢 速 网 络 连接 的 系统 中 ， 任 务 粒度 
应 当 足 够 大 ， 以 弥补 较 大 的 通信 延迟 ， 因 此 基于 图 像 块 的 任务 是 合理 的 选择 。 但 是 ， 在 一 个 
由 快速 〈 低 延迟 ) 网 络 连 接 的 大 量 节 点 集合 系统 中 ， 将 需要 较 小 的 任务 ， 以 确保 存在 足够 的 
工作 来 保持 所 有 UE 繁忙 。 注 意 ， 这 里 强调 了 对 快速 网 络 的 需求 ， 否 则 每 个 任务 较 小 的 工作 
量 将 不 够 补偿 通信 市 来 的 开销 。 


依赖 性 。 任 务 间 的 依赖 性 对 算法 设计 具有 重要 的 影响 。 存 在 两 种 类 型 的 依赖 性 : 顺序 约 “ 


束 和 与 共享 数据 相关 的 依赖 性 。 
针对 该 模式 ,顺序 约束 应 用 于 任务 分 组 ， 可 以 通过 强制 任务 分 组 按照 所 需要 的 顺序 来 处 
理 分 组 。 例 如 ， 在 一 个 任务 并 行 的 多 维 快速 傅 里 叶 变 换 中 ， 需 要 变换 的 每 一 维 都 存在 一 个 对 
应 的 任务 分 组 ， 需 要 使 用 同步 或 其 他 的 程序 结构 ， 确 保 在 计算 下 一 个 维度 之 前 ， 必 须 完成 当 
前 维度 的 计算 。 另 外 ， 我 们 可 以 将 这 个 问题 简化 为 任务 并 行 计 算 的 一 个 顺序 组 合 ， 每 一 个 步 
又 对 应 于 一 个 任务 分 组 。 | 
共享 数据 依赖 性 可 能 更 加 复杂 。 最 简单 的 情形 是 任务 间 没 有 依赖 。 令 人 惊奇 的 是 ， 大 多 
数 问 题 都 属于 这 种 情形 。 这 类 问题 通常 称 为 易 并 行 问 题 。 它 们 是 并 行 计算 问题 中 最 简单 的 并 
行程 序 ， 主 要 考虑 的 是 任务 如 何 定义 ( 如 前 面 所 述 ) 和 调度 (将 在 后 面 讨论 )。 当 任务 间 共 享 
数据 时 ， 虽然 仍然 存在 一 些 相 对 容易 处 理 的 常见 情况 ,但 算法 将 变 得 更 加 复杂 。 我 们 可 以 将 
依赖 性 分 成 如 下 几 类 。 
e 可 消除 的 依赖 性 。 在 这 种 情形 中 ， 任 务 间 的 依赖 性 并 不 是 真正 的 依赖 性 ， 而 是 一 种 表 
面 上 的 依赖 性 ， 可 以 通过 简单 的 代码 替换 消除 它 。 最 简单 的 一 种 情况 是 临时 变量 ， 变 
量 的 作用 域 对 于 每 一 个 任务 来 说 都 是 完全 局 部 的 ， 即 每 一 个 任务 初始 化 变量 ， 而 不 用 
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引用 考 其 他 任务 。 这 种 情况 可 以 通过 为 每 一 个 UE 简单 地 创建 局 部 变量 的 一 个 副本 来 
进行 处 理 。 在 更 复杂 的 情形 中 ,循环 迭代 中 的 表达 式 可 能 需要 转换 为 封闭 形式 的 表达 
式 ， 以 消除 循环 依赖 性 。 例 如 ， 考 虑 下 面 的 简单 循环 : 
int ii = 0, jj = 0; 
for(int i = 0; i< N; i++) 

ii = ii + 1; 

d[ii] = big time consuming work(ii); 

JJ * 33 i; 

3155) = other_big_calc(jj); 

变量 ii 和 jj 引入 了 任务 间 的 一 个 依赖 性 ， 阻 止 了 循环 的 并 行 化 。 我 们 可 以 通 

过 使 用 封闭 形式 的 表达 式 蔡 换 掉 ii 和 jj3， 来 消除 这 种 依赖 性 CEE, iiM i 的 值 
是 相同 的 ，jj 的 值 是 从 0 到 i 的 值 的 总 和 ): 
for(int i = 0; i< N; i++){ 


d[i] = big time consuming work(i); 
a[(i*i*i)/2] = other big calc((i*i*i)/2)); 


“可 分 离 的 ”依赖 性 。 当 依赖 性 包含 一 个 对 共享 数据 结构 的 累计 过 程 时 ， 可 以 通过 在 
计算 开始 时 复制 该 数据 结构 ,. 执行 该 任务 ,任务 完成 后 合并 所 有 副本 为 单个 数据 结 
构 ， 将 依赖 性 与 任务 分 离 (“ 排 除 在 并 发 计算 之 外 ”)。 通 常 累计 是 一 个 归 约 运算 ， 通 
过 重复 地 应 用 一 个 二 元 和 运算， 如 加 或 乘 ， 将 数据 元 素 的 一 个 集合 最 终归 约 为 单个 
元 素 。 

依赖 性 的 处 理 方式 可 以 更 详细 地 描述 如 下 : 把 累计 中 所 使 用 的 数据 结构 的 副本 复 
制 到 每 一 个 UE 上 。 初 始 化 每 一 个 副本 《在 归 约 情形 中 ， 把 它 初始 化 为 二 元 运算 的 单 
位 元 ， 例如， 对 于 加 法 来 说 ， 单 位 元 为 0， 对 于 乘法 来 说 ， 单 位 元 为 1 )。 然 后 每 一 个 
任务 对 它 的 局 部 数据 结构 进行 累计 运算 ， 从 而 消除 了 共享 数据 的 依赖 性 。 当 所 有 的 任 
务 完成 时 ， 每 一 个 UE 上 的 局 部 数据 结构 被 组 合成 最 终 的 全 局 结果 ( 在 归 约 情形 中 ， 通 
过 重新 应 用 二 元 运算 来 实现 )。 作 为 一 个 示例 ， 考 虑 下 面 对 数 组 £ 的 元 素 累 加 的 循环 : 


for(int i = 0; i< N; i++){ 
sum = sum + f(i); 


} 


这 是 循环 迭代 间 的 依赖 性 ， 但 是 如 果 我 们 识别 出 循环 体 只 不 过 是 对 某 个 简单 标量 
元 素 的 累加 ， 则 它 可 以 被 当 作 一 个 归 约 来 处 理 。 

归 约 非常 普遍 ， 以 至 于 MPI 和 OpenMP 都 以 API 的 形式 提供 了 对 它 的 支持 。6.4.2 
节 更 详细 地 讨论 归 约 方面 的 内 容 。 
其 他 依赖 性 。 如 果 共 享 数 据 无 法 被 排除 在 任何 任务 之 外 ， 并 且 又 需要 被 任务 读 和 写 ， 
则 必须 在 任务 内 部 显 式 地 处 理 数据 依赖 性 。 通 过 什么 方式 完成 该 任务 ， 使 得 结果 正确 
并 且 获 得 一 个 可 以 接受 的 性 能 将 是 共享 数据 模式 中 的 主题 。 


调度 。 其 他 需要 考虑 的 关键 因素 是 调度 ， 即 任务 被 分 配给 UE 并 被 调度 执行 的 方式 。 在 
调度 中 ， 
衡 PE 间 的 计算 负载 时 ， 它 的 执行 效率 要 高 于 PE 间 计 算 负载 不 平衡 的 情况 。 图 4-3 演示 了 这 
个 问题 。 


负载 平衡 ( 如 第 2 章 所 述 ) 是 一 个 调度 中 需要 重点 考虑 的 因素 。 当 一 个 设计 能 够 平 
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并 行 算 法 中 使 用 了 两 类 调度 : 静态 调度 ， 其 中 任务 在 UE 间 的 分 布 在 计算 开始 时 就 已 经 
确定 ， 并 且 不 再 改变 ; 动态 调度 ， 其 中 任务 在 UE 间 的 分 布 随 着 计算 的 进行 而 发 生 改变 。 

在 静态 调度 中 ， 把 任务 组 合成 任务 块 ， 然 后 分 配给 UE。 任 务 块 的 大 小 是 可 调 的 ， 所 以 ， 
每 一 个 UE 将 花费 几乎 相等 的 时 间 来 完成 分 配给 它 的 任务 。 大 多 数 应 用 中 使 用 了 静态 调度 ， 
可 从 UE 中 获得 的 计算 资源 在 计算 的 整个 过 程 中 都 是 可 以 预知 并 且 稳 定 的 ， 大 多 数 情 形 中 ， 
UE 都 是 一 致 的 ( 即 计 算 系 统 是 同 构 的 )。 如 果 完 成 每 一 个 任务 所 需要 的 时 间 狭 罕 地 分 布 在 一 
个 平均 数 附 近 ， 则 每 个 任务 块 的 大 小 应 当 与 UE 的 性 能 成 比例 C 因此 ， 在 一 个 同 构 系 统 中 ， 
所 有 任务 块 大 小 相同 )。 当 完成 任务 所 需 的 工作 量 差 别 很 大 时 ， 静 态 调 度 仍然 非常 有 用 ,但 是 
现在 分 配给 UE 的 任务 块 的 数目 必须 要 远大 于 UE 的 数目 。 通 过 以 一 种 轮 循 (round-robin ) 方 
式 来 处 理 任 务 ( 像 在 一 组 玩家 间 发 一 副 纸 牌 一 样 )， 将 静态 地 平衡 负载 。 

动态 调度 应 用 于 两 种 情况 : 中 与 每 一 个 任务 相关 的 工作 量 差别 很 大 并 且 是 不 可 预知 的 。 
DUE 的 性 能 差别 很 大 ， 并 且 是 不 可 预知 的 。 动 态 负 和 载 平 衡 所 使 用 的 最 常见 方法 是 定义 一 个 
任务 队列 ， 该 队列 供 所 有 的 UE 使 用 ; 当 一 个 UE 完成 它 的 当前 任务 并 且 准 备 处 理 更 多 的 工作 
时 ， 它 从 任务 队列 中 移 除 一 个 任务 。 性 能 较 强 的 UE 和 那些 获得 轻 量 级 任务 的 UE 将 会 更 频繁 
地 访问 队列 ， 从 而 被 分 配 更 多 的 任务 。 

另 一 种 动态 调度 策略 是 使 用 工作 窃取 法 (work stealing )， 工 作 方式 如 下 所 述 。 在 计算 开 
始 时 ， 把 任务 分 布 到 所 有 UE 上 。 每 一 个 UE 具有 自己 的 工作 队列 。 当 工作 队列 为 空 时 ，UE 
将 设法 从 其 他 UE 的 任务 队列 中 窃取 工作 ( 这里， 其 他 的 UE 通常 是 随机 选择 的 )。 多 数 情 
况 下 ， 这 可 以 获得 一 个 最 佳 的 动态 调度 ， 而 不 会 带 来 因 维 护 一 个 全 局 队列 而 产生 的 开销 。 在 
提供 这 种 构造 支持 的 编程 环境 或 者 工具 包 中 ， 如 Cilk[BJK*96], Hood [BP99] 或 者 FJTask HE 
架 [Lea00b，Leal]， 使 用 这 种 方法 非常 简单 。 但 是 ， 许 多 常用 的 编程 环境 不 提供 这 种 支持 ， 如 
OpenMPI、MPI 或 者 Java ( 不 支持 类 似 FJTask 框架 )， 因 为 使 用 这 种 方法 将 显著 增加 复杂 性 ， 
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所 以 ， 这 些 编程 环境 中 很 少 使 用 它 。 

针对 一 个 给 定 的 问题 ， 选 择 一 种 好 的 调度 策略 并 不 总 那么 容易 。 静 态 调 度 在 并 行 计算 期 
间 产 生 最 少 的 额外 开销 ， 因 此 应 当 尽 可 能 地 使 用 它 。 

在 结束 对 调度 的 讨论 之 前 ， 再 一 次 提醒 : 虽然 对 于 大 多 数 问题 来 说 ， 所 有 的 任务 在 计算 
开始 时 已 经 知道 ， 并 且 必 须 完 成 ， 以 产生 一 个 最 终 的 解决 方案 ， 但 是 还 是 存在 一 些 问题 不 满 
足 其 中 的 一 点 或 者 两 点 。 在 这 些 情形 中 ， 动 态 调度 可 能 更 适合 。 

程序 结构 。 可 认为 许多 任务 并 行 问题 是 基于 循环 的 。 顾 名 思 义 ， 在 这 些 基 于 循环 的 问题 
中 的 任务 都 基于 循环 的 迭代 。 对 于 这 种 问题 ， 最 佳 解决 方法 是 使 用 循环 并 行 模式 。 这 种 模式 
在 那些 能 够 提供 将 循环 的 迭代 自动 分 配给 UE 的 指令 的 编程 环境 中 ， 实 现 起 来 特别 容易 。 例 
lll, Æ OpenMP 中 ， 可 以 简单 地 增加 一 个 “parallel for” 指 令 和 一 个 相应 的 调度 子 句 ( 它 能 够 
使 程序 的 效率 最 大 化 )， 来 将 一 个 循环 并 行 化 。 这 种 解决 方案 特别 具有 吸引 力 ， 因 此 OpenMP 
保证 了 最 终 程序 与 类 似 的 串 行 代码 在 语义 上 是 等 价 的 (与 浮 点 运算 的 不 同 顺序 相关 的 舍 人 错 
误 范 围 之 内 )。 

对 于 那些 目标 平台 不 适合 循环 并 行 模式 的 问题 ， 或 者 对 于 那些 无 法 应 用 “所 有 的 任务 初 
始 时 都 已 知 ， 所 有 的 任务 必须 完成 ”模型 的 问题 来 说 (要么 因为 任务 可 以 在 计算 期 间 动 态 创 
建 ， 要 么 因为 计算 可 以 在 所 有 任务 未 完成 之 前 终止 )， 这 种 简单 的 方法 不 是 最 佳 选 择 。 相 反 ， 
充分 使 用 任务 队列 才 是 最 佳 选 择 。 当 创建 任务 后 ， 把 它们 放置 到 任务 队列 中 ， 计 算 完 成 后 ， 
任务 被 UE 从 队列 中 移 除 。 整 个 程序 结构 可 以 基于 主 / 从 (Master/Worker ) 模式 ， 也 可 以 基 
于 SPMD 模式 。 前 者 特别 适用 于 那些 需要 动态 调度 的 问题 。 

在 所 有 的 任务 完成 之 前 计算 可 以 终止 的 情况 下 ， 需 要 特别 小 心 ， 确 保 计 算 在 应 当 结 束 
时 结束 。 如 果 定 义 一 个 终止 条 件 ， 当 条 件 为 真 时 表明 计算 完成 ， 或 者 所 有 任务 都 完成 ， 或 者 
某 些 其 他 条 件 满足 ( 例如， 一 个 任务 已 经 找到 了 一 个 可 接受 的 解决 方案 )， 则 我 们 需要 确保 : 
QD 终止 条 件 最 终 是 可 以 满足 的 ( 例如， 如 果 任 务 可 以 动态 创建 ， 则 终止 条 件 可 能 是 所 创建 任务 
数目 的 最 大 值 ); @ 当 终止 条 件 满足 时 ， 程 序 结束 。 如 何 确保 后 者 将 在 5.5 节 和 5.4 节 中 讨论 。 

常用 术语 。 可 以 应 用 这 种 模式 的 大 多 数 问题 分 成 如 下 两 类 。 

易 并 行 问 题 是 那些 任务 间 没 有 依赖 性 的 问题 。 从 动态 影像 的 帧 泻 染 到 计算 物理 学 中 的 
统计 采样 ， 多 数 问题 属于 这 一 类 。 因 为 没有 依赖 性 需要 处 理 ， 所 以 主要 工作 集中 于 调度 任 
务 ， 以 获得 最 大 效率 。 在 许多 情形 中 ， 和 定义 能 够 自动 、 动 态 地 平衡 UE 间 的 负载 的 调度 是 可 
行 的 。 

复制 数据 或 归 约 问题 是 那些 任务 间 的 依赖 性 可 以 通过 “将 依赖 性 与 任务 相隔 离 ” 来 处 理 
的 问题 ， 如 前 面 所 述 : 在 计算 开始 时 复制 数据 ， 当 终止 条 件 满足 时 ( 通常,“ 所 有 的 任务 都 完 
成 ”) 组 合 所 有 的 结果 。 对 于 这 些 问题 ， 整 个 解决 方案 由 三 个 阶段 组 成 ,开始 时 将 数据 复制 到 
局 部 变量 中 ， 然 后 解决 当前 相互 独立 的 任务 ( 使 用 易 并 行 问 题 中 所 使 用 的 相同 技术 )， 最 后 重 
新 组 合 所 有 的 结果 ， 得 到 一 个 最 终 的 结果 。 

5. 示例 

我 们 将 考虑 此 模式 的 两 个 示例 。 第 一 个 示例 是 图 像 构 建 示 例 ， 这 是 一 个 易 并 行 问题 。 
第 二 个 示例 构建 于 分 子 动力 学 示例 之 上 ， 其 中 ， 分 子 动力 学 问题 在 第 3 章 的 好 几 节 中 都 
用 过 。 

图 像 构建 。 在 许多 图 像 构建 问题 中 ， 图 像 中 的 每 一 个 像素 独立 于 其 他 所 有 的 像素 。 例 如 ， 
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考虑 知名 的 Mandelbrot 集合 [Dou86]。 这 个 著名 图 像 的 构建 方式 是 根据 二 次 递 推 关 系 对 每 一 


个 像素 进行 着 色 : | 
Ze = Ze +C ( 4-1 ) 


式 中 ，C 和 Z 是 复数 ， 递 推 开始 于 Zo=C。 在 垂直 轴 上 绘制 C 的 虚 部 ， 在 水 平 轴 上 绘制 C 
的 实 部 。 如 果 递 推 关 系 收敛 于 一 个 稳定 的 值 ， 则 每 一 个 像素 的 颜色 是 黑色 ,或 者 根据 递 推 关 
系 的 发 散 速 度 对 所 有 的 像素 进行 着 色 。 

在 最 底层 ， 任 务 是 对 单个 的 像素 进行 更 新 。 首 先 考虑 在 一 个 由 以 太 网 连接 的 PC 集群 上 
计算 这 个 任务 集合 。 该 集群 是 一 个 粗 粒 度 系统 ， 即 通信 率 相 对 于 计算 率 是 非常 慢 的 。 为 了 补 
偿 慢 速 网 络 所 产生 的 开销 ， 任 务 的 规模 要 足够 大 。 对 于 这 个 问题 ， 可 能 意味 着 计算 图 像 的 一 
整 行 。 根 据 每 一 行 中 离散 像素 数目 的 不 同 ,， 计算 每 一 行 所 含 的 工作 量 是 有 差别 的 。 但 这 个 差 
别 是 适度 的 ， 紧 密 分 布 在 一 个 平均 值 周围 。 因 此 ， 在 任务 数目 远 比 UE 数目 多 的 情况 下 ， 融 
态 调度 将 很 可 能 在 节点 间 给 出 一 个 高 效 的 统计 负载 平衡 。 应 用 这 种 模式 的 剩余 步骤 是 为 程序 
选择 一 个 整体 结构 。 在 一 台 使 用 OpenMP 的 共享 内 存 机 器 上 ， 第 5 章 描 述 的 循环 并 行 模式 是 
一 个 很 好 的 选择 。 在 一 个 运行 MPI 的 工作 站 网 络 上 ，SPMD 模式 〈 将 第 5 章 中 描述 ) 是 一 个 
合适 的 选择 。 

在 转向 下 一 个 示例 之 前 ， 我 们 考虑 另外 一 个 目标 系统 一 一 集群 ， 其 中 它 的 节点 是 异 构 的 ， 
也 就 是 说 ， 某 些 节点 远 比 其 他 节点 快 。 另 外 ， 假 设 在 工作 调度 时 ， 每 一 个 节点 的 速度 是 未 知 
的 。 因 为 计算 图 像 的 一 行 所 需要 的 时 间 既 依赖 于 该 行 本 身 ， 又 依赖 于 计算 它 的 节点 ， 所 以 动 
态 调 度 是 最 佳 选 择 。 这 又 需要 使 用 一 个 通用 的 动态 负载 平衡 策略 ， 于 是 整个 程序 结构 应 当 是 
基于 主 /从 模式 的 。 

分 子 动力 学 。 对 于 第 二 个 示例 ， 我 们 考虑 分 子 动力 学 问题 中 非 化 学 键 作 用 力 的 计算 。 这 
个 问题 描述 在 3.1.3 节 和 [Mat95, PH95] 中 ,第 3 章 的 所 有 模式 中 都 使 用 了 它 。 这 个 计算 的 伪 
码 如 图 4-4 所 示 。 在 这 个 例子 中 ， 物 理 上 是 不 相关 的 ， 它 隐藏 在 其 他 地 方 的 代码 中 (这 里 仅 
是 邻居 列表 和 作用 力 函 数 的 计算 )。 基 本 的 计算 结构 是 一 个 关于 所 有 原子 的 遍历 ， 然 后 对 于 每 
一 个 原子 ， 又 有 男 一 个 关于 与 其 他 原子 交互 的 循环 。 当 邻居 列表 确定 时 ， 每 个 原子 交互 的 数 
目 分 别 计算 。 该 例 程 (这 里 没有 显示 ) 计算 与 预 设 的 截断 距离 相等 的 半径 内 区 域 中 的 原子 数 
目 。 邻 居 列 表 也 被 修改 以 说 明和 牛顿 第 三 定律 : 因为 原子 i 对 原子 j 的 作用 力 是 原子 3 对 于 原 
T i 的 反作用 力 ， 所 以 仅 需 要 计算 一 半 的 原子 潜在 的 交互 即 可 。 对 于 理解 这 个 示例 来 说 ， 理 
解 示 例 的 细节 并 不 重要 。 重 要 的 是 ， 这 使 得 对 于 不 同 的 原子 ， 每 一 个 关于 j 的 循环 差别 很 大 ， 
因此 ， 负 和 载 平衡 问题 变 得 非常 复杂 。 实 际 上 ， 针 对 该 示例 ， 必 须 理 解 的 是 计算 作用 力 是 一 种 
开销 很 大 的 操作 ,并且 每 个 原子 交互 的 数目 差别 很 大 。 因 此 ， 提 前 预测 每 一 个 关于 i 的 迭代 
的 计算 量 是 很 困难 的 。 

计算 作用 力 的 每 一 部 分 是 独立 的 ， 即 每 一 个 (1, 3) 对 基本 上 是 一 个 独立 的 任务 。 原 子 的 
数目 趋向 于 以 千 为 数量 级 ， 取 该 数目 的 平方 后 ， 所 获得 的 任务 数目 远 超过 最 大 的 并 行 系统 所 
承载 的 任务 数 。 因 此 ， 将 一 个 任务 定义 为 关于 i 的 循环 的 迭代 是 非常 便利 的 。 但 是 ， 这 些 任 
务 不 是 独立 的 : force 数组 可 供 每 一 个 任务 读 和 写 。 从 代码 中 观察 发 现 ， 这 些 数组 仅 用 于 累 
加 计算 的 结果 。 这 样 ， 整 个 数组 可 以 复制 到 每 一 个 UE 中 ,任务 完成 后 ， 局 部 副本 再 归 约 到 
一 起 。 
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function non_bonded_forces (N, Atoms, neighbors, Forces) 
Int const N // number of atoms 


Array of Real :: atoms (3,N) //3D coordinates 

Array of Real :: forces (3,N) //force in each dimension 
Array of List :: neighbors(N) //atoms in cutoff volume 
Real :: forceX, forceY, forceZ 


loop [i] over atoms 


loop [j] over neighbors (i) 
forceX = non_bond_force(atoms(1,i), atoms(1,j)) 
forceY = non_bond_force(atoms(2,i), atoms(2,j)) 
forceZ = non_bond_force(atoms(3,i), atoms(3,j)) 
force(1,i) += forceX; force(1,j) -= forceX; 
force(2,i) += forceY; force(2,j) -= forceY; 
force(3,i) += forceZ; force(3,j) -= forceZ; 

end loop [j] 


end loop [i] 
end function non_bonded_forces 





图 4-4 ”一段 典型 的 分 子 动力 学 代码 中 非 化 学 键 作 用 力 计算 的 伪 码 


复制 完成 后 ， 问 题 成 为 易 并 行 问 题 ， 可 以 采用 前 面 讨 论 的 相同 方法 。 我 们 会 在 5.5 节 、 
5.6 节 和 5.4 节 中 重新 回顾 这 个 示例 。 对 这 些 模 式 的 选择 通常 还 需要 基于 目标 平台 的 特征 进行 

知名 应 用 。 在 很 多 应 用 领域 中 ， 这 种 模式 都 非常 有 用 。 — 

许多 光线 追踪 程序 使 用 某 种 形式 的 分 解 ， 其 中 单独 的 任务 对 应 于 最 终 图 像 中 的 扫描 线 
[BKS91]。 

使 用 协作 语言 ( coordination language， 例 如 Linda ) 编写 的 应 用 程序 是 这 种 模式 非常 丰富 
的 示例 资源 [BCM'91]. Linda [CG91] 是 一 种 简单 的 语言 ， 仅 由 6 种 操作 组 成 ， 这 些 操作 读 和 
写 一 个 相关 ( 即 内 容 寻 址 ) 共享 内 存 ， 统 称 为 元 组 空间 。 元 组 空间 为 各 种 共享 队列 和 主 /从 
算法 的 实现 提供 了 一 种 很 简便 的 方式 。 

并 行 计算 化 学 应 用 也 大 量 使 用 这 种 模式 。 在 量子 化 学 程序 GAMESS 中 ， 关 于 两 个 电子 体 
的 循环 使 用 了 TCGMSG 内 的 Nextval 构造 所 隐 含 的 任务 队列 ， 从 而 得 到 了 并 行 化 。 距 离 几 
何 程序 DGEOM 的 一 个 早期 版 本 使 用 了 这 种 模式 的 主 /从 形式 ， 从 而 实现 了 并 行 化 。 这 些 示 
例 在 [Mat95] 中 描述 过 。 

并 行 遥 测 处 理 机 (Parallel Telemetry Processor, PTEP ) [NBB01] 由 NASA 开发 ， 作 为 行 
星 探测 飞行 器 或 月 球 登 陆 车 数据 的 下 行 处 理 系 统 ， 也 使 用 了 这 种 模式 。 系 统 由 Java 实现 ,但 
可 以 与 由 其 他 语言 开发 的 组 件 进行 合并 。 对 于 每 一 个 进入 的 数据 包 ， 系 统 确定 是 哪 一 个 仪器 
产生 了 该 数据 ， 然 后 将 该 数据 放 人 一 个 由 多 个 处 理 步 又 组 成 的 串 行 流水 线 中 处 理 。 因 为 进入 
的 数据 包 是 相互 独立 的 ， 所 以 每 一 个 数据 包 的 处 理 可 以 并 行进 行 。 


4.5 分 治 模式 


1. 问题 | 
假设 问题 使 用 串 行 的 分 治 策略 进行 了 描述 ， 如 何 挖掘 潜在 的 并 发 性 ? 
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2. 背景 

分 治 策略 在 很 多 串 行 算法 中 得 到 了 应 用 。 利 用 这 种 策略 ， 问 题 被 划分 为 许多 较 小 的 子 问 
题 ， 独 立地 求解 每 一 个 子 问 题 ， 并 将 所 有 的 子 问 题解 决 方案 合并 为 整个 问题 的 解决 方案 ， 从 
而 求解 整个 问题 。 子 问题 可 以 直接 求解 ， 或 者 可 以 再 使 用 相同 的 分 治 策略 求解 ， 这 样 产 生 一 
个 整体 的 递归 程序 结构 。 

对 于 大 量 的 计算 密集 型 问题 来 说 ， 这 个 策略 是 非常 有 价值 的 。 对 于 很 多 问题 来 说 ， 它 们 
的 数学 描述 可 以 很 好 地 映射 到 一 个 分 治 算法 。 例 如 ， 著 名 的 快速 传 里 叶 变换 算法 [PTV93] 实 
质 上 是 关于 离散 傅 里 叶 变换 的 双 衣 套 循环 到 一 个 分 治 算法 的 映射 。 鲜 为 人 知 的 是 ， 计 算 线性 
代数 中 的 许多 算法 ， 例 如 Cholesky 4% [ABE' 97，PLA]， 也 能 够 被 很 好 地 映射 到 分 治 算法 。 

这 种 策略 中 的 潜在 并 发 性 并 不 难 发 现 ， 因 为 子 问题 可 以 独立 地 求解 ， 所 以 它们 可 以 同时 
进行 计算 。 图 4-5 演示 了 这 种 策略 和 潜在 的 并 发 性 。 注 意 ， 每 一 次 “划分 ”使 可 用 的 并 发 性 
加 倍 。 尽 管 一 个 分 治 算 法 中 的 并 发 性 是 显然 的 ， 但 有 效 挖掘 它 所 需要 的 技术 并 不 总 是 显 而 易 
见 的 。 
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图 4-5 分 治 策略 


3. 面临 的 问题 

e 传统 的 分 治 策略 是 算法 设计 中 广泛 采用 的 一 种 方法 。 基 于 显而易见 的 并 发 性 ， 串 行 分 
治 算法 可 以 很 容易 地 并 行 化 。 

e 如 图 4-5 所 示 ， 在 程序 的 不 同 阶段 ， 可 供 挖掘 的 并 发 性 数量 是 不 同 的 。 在 递归 的 最 外 
层 ( 初始 的 划分 和 最 终 的 合并 )， 仅 有 少量 或 没有 可 挖掘 的 并 发 性 ， 并 且 子 问题 也 包 
含 划分 和 合并 部 分 。Amdahl 定律 ( 见 第 2 章 ) 告诉 我 们 ， 一 个 程序 的 串 行 部 分 可 以 极 
大 地 制约 通过 添加 更 多 的 处 理 需 所 获得 的 加 速 比 。 这 样 ， 如 果 相 比 于 基本 的 计算 量 ， 
划分 和 合并 计算 并 不 能 忽略 ， 则 使 用 这 种 模式 的 程序 可 能 无 法 利用 大 量 处 理 器 的 优 
上 点。 此外， 如 果 具 有 多 层 递 归 ， 任 务 数量 可 能 增长 得 非常 快 ， 任 务 管 理 的 开销 可 能 远 
远 超 过 并 发 执行 所 带 来 的 好 处 。 

e 在 分 布 式 存储 系统 中 ， 子 问题 可 以 在 一 个 PE 上 生成 ， 而 在 另 一 个 PE 上 执行 ， 这 需要 
将 数据 和 结果 在 PE 间 移 动 。 如 果 与 计算 相关 的 数据 量 ( 即 参数 集 的 大 小 和 每 一 个 子 
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问题 结果 的 大 小 ) 较 小 ， 则 算法 会 比较 高 效 。 否 则 ， 大 的 通信 开销 将 降低 性 能 。 | 
e 在 分 治 算法 中 ， 随 着 计算 的 进行 动态 地 创建 任务 ， 在 某 些 问 题 中 ， 由 此 产生 的 “任务 
图 ”将 有 一 个 不 规则 和 与 数据 相关 的 结构 。 如 果 发 生 这 种 情形 ， 则 应 当 利 用 动态 负载 
平衡 的 解决 方案 。 
4. 解决 方案 
一 个 串 行 分 治 算法 的 绪 构 如 图 4-6 所 示 。 这 个 结构 的 基础 是 一 个 递归 调用 函数 
(slave () )， 该 函数 驱动 解决 方案 中 的 每 一 步 。 在 solve 内 部 ， 问 题 或 者 划分 为 较 小 的 
子 问题 (使 用 split () 函数 )， 或 者 直接 求解 (使 用 basesolve () 函数 )。 典 型 的 策略 
是 将 递归 持续 下 去 ， 直 到 子 问 题 足 够 简单 ， 可 以 直接 求解 为 止 ， 通 常 子 图 数 中 只 有 少数 几 
行 代码 。 但 是 ， 如 果 采 用 如 下 观点 ， 效 率 将 得 到 提高 ， 即 baseolve() 函数 应 当 在 以 下 两 
种 情况 下 调用 : 只 当 执行 进一步 的 划分 和 合并 的 开销 显著 降低 性 能 时 ; 包 当 问题 的 规模 对 
于 目标 系统 来 说 是 最 优 时 ( 例如 ， 当 baseSolve() 函数 所 需要 的 数据 正好 适合 缓存 的 大 
小 时 )。 


func solve returns Solution; // a solution stage 

func baseCase returns Boolean; // direct solution test 
func baseSolve returns Solution; // direct solution 
func merge returns Solution; // combine subsolutions 
func split returns Problem[]; // split into subprobs 


Solution solve(Problem P) { 

if (baseCase(P)) 
return baseSolve(P); 

else { 
Problem subProblems[N]; 
Solution subSolutions[N]; 
subProblems = split(P); 
for (int i = 0; i« N; i++) 

subSolutions[i] = ie chica sant ee 

return merge(subSolutions) ; 





4-6 分 治 算法 的 串 行 伪 代 码 


通常 情况 下 ， 当 子 问题 可 以 独立 求解 时 ( 因此 可 以 并 发 地 求解 )， 分 治 问题 中 的 并 发 性 很 
容易 被 发 现 。 通 过 将 任务 定义 为 solve () 函数 的 一 个 调用 ， 该 串 行 分 治 算法 可 以 直接 地 映 
射 到 一 个 任务 并 行 算法 ， 如 图 4-7 所 示 。 注 意 这 个 设计 的 递归 属性 ， 其 中 每 一 个 任务 实际 上 
都 动态 地 产生 ， 人 然后 由 每 一 个 子 问题 吸收 一 个 任务 。 

在 递归 的 菜 一 层 ， 子 问题 需要 的 计算 量 可 能 变 得 很 小 ， 以 至 于 不 值得 创建 一 个 新 任务 来 
求解 它 。 在 这 种 情况 下 ， 当 子 问题 小 于 某 个 国 值 时 ， 在 递归 的 较 高 层 创建 新 任务 的 混合 程序 
将 转向 串 行 求解 方案 ， 这 样 程序 将 更 高 效 。 像 后 面 所 讨论 的 一 样 ， 根 据 具体 的 问题 和 可 用 的 
PE 数目 ， 在 选择 这 个 国 值 时 ， 需 要 做 出 某 种 权衡 。 这 样 ， 在 程序 设计 中 ,“ 粒 度 块 ”大 小 易 
于 改变 是 一 个 非常 好 的 主意 。 

将 任务 映射 到 UE 或 者 PE。 从 概念 上 讲 ， 这 种 模式 遵循 一 种 简单 的 派生 /聚合 (C fork/ 
join) 方法 (参考 5.7 节 ), 一 个 任务 分 割 问题 ， 然 后 派生 新 任务 来 计算 这 些 子 问 题 ， 然 后 等 
待 ， 直 到 所 有 的 子 问 题 计 算 完 成 ， 最 后 与 子 任务 结果 合并 ， 进 而 完成 任务 。 
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图 4-7 并 行 化 分 治 策略 ( 每 个 虚线 框 表示 一 个 任务 ) 


最 简单 的 情形 是 当 划 分 阶段 产生 计算 量 大 小 相同 的 子 问 题 时 。 此 时 派生 /聚合 策略 的 一 
个 简单 实现 是 ， 将 每 一 个 任务 映射 到 一 个 UE 上 ， 当 活动 的 子 任务 数 与 PE 数 相 同时 ， 停 止 
递归 。 

在 许多 情形 中 ， 问 题 是 不 规则 的 ， 因 此 最 好 创建 多 个 细 粒 度 的 任务 ， 使 用 主 / 从 结构 将 
任务 映射 到 执行 单元 上 。 这 个 方法 的 详细 实现 在 5.5 节 中 讨论 。 基 本 思想 是 在 概念 上 维持 一 
个 任务 队列 和 一 个 UE 池 。 当 划分 某 个 子 问 题 时 ， 把 新 的 任务 放置 到 队列 中 。 当 某 个 UE 完成 
一 个 任务 时 ， 它 从 队列 中 获得 另外 一 个 任务 。 采 用 这 种 方式 ， 所 有 的 UE 仍 趋 向 于 保持 繁忙 ， 
该 解决 方案 展现 了 很 好 的 负载 平衡 。 细 粒度 的 任务 以 较 多 的 任务 管理 开销 为 代价 ， 获 得 较 好 
的 负载 平衡 。 

许多 并 行 编程 环境 直接 支持 派生 /聚合 结构 。 例 如 ， 在 OpenMP 中 ， 我 们 可 以 容易 地 产 
生 一 个 并 行 应 用 程序 ， 方 法 是 将 图 4-6 中 的 for 循环 转换 为 OpenMP 的 一 个 parallel for 结构 。 
然后 将 并 发 地 求解 子 问题 ，OpenMP 运行 时 环境 负责 处 理 线程 的 管理 。 遗 憾 的 是 ， 这 种 技术 
仅 在 OpenMP 实现 中 有 效 ，OpenMP 文 持 并 行 区 域 的 向 套 。 当 前 ， 仅 有 少数 OpenMP 实现 了 
这 些 功能 。 将 OpenMP 扩展 到 更 好 的 地 址 递归 并 行 算法 是 OpenMP 社区 中 一 个 很 热 的 研究 领 
域 [Mat03]。 在 将 来 的 OpenMP 规范 中 很 可 能 采用 的 一 个 建议 是 ,添加 一 个 显 式 的 任务 队列 结 
构 ， 以 支持 递归 算法 的 表达 式 [SHPT00]。 

Java 的 FJTask 框架 [Lea00b, Lea] 为 派生 7 聚合 程序 提供 了 支持 ， 包 括 一 个 支持 实现 的 
线程 池 。 该 程序 包 中 提供 了 分 治 策略 的 几 个 示例 程序 。 

通信 开销 。 因 为 其 他 任务 是 由 一 个 最 顶层 的 任务 动态 地 产生 的 ， 所 以 一 个 任务 可 以 在 产 
生 它 的 PE 之 外 的 其 他 PE 上 执行 。 在 一 个 分 布 式 内 存 系统 中 ， 层 次 较 高 的 任务 通常 具有 求解 
它 的 整个 问题 所 需要 的 数据 ， 相 关 数 据 必须 移动 到 子 问 题 的 PE 中 ， 而 结果 则 需要 移动 到 它 的 
源 处 。 这 样 ， 就 需要 考虑 如 何 高 效 地 表示 参数 和 结果 ， 同 时 考虑 在 计算 开始 时 复制 某 些 数据 
是 否 有 意义 。 

处 理 依 赖 性 。 在 使 用 分 治 策略 构成 的 大 多 数 算法 中 ， 每 一 个 子 问题 可 以 独立 地 求解 。 子 
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问题 需要 访问 公共 数据 结构 的 情况 并 不 常见 。 这 种 依赖 性 可 以 使 用 5.8 节 摘 述 的 技术 处 理 。 

其 他 优化 。 限 制 分 治 模 式 可 扩展 性 的 一 种 因素 是 串 行 的 划分 和 合并 部 分 。 通 过 将 每 一 个 
问题 划分 为 更 多 的 子 问 题 ， 从 而 降低 递归 的 层 数 ,通常 是 非常 有 意义 的 ， 特 别 是 在 划分 和 合 
并 阶段 能 够 并 行 化 的 情形 下 。 这 可 能 需要 重 构 求解 过 程 ， 但 能 使 它 变 得 非常 高 效 ， 特 别 是 在 
“深度 为 1 的 分 治 ” 极 端 情形 中 ， 一 开始 将 问题 分 成 已 个 子 问题 ， 其 中 已 是 可 利用 的 PE 数 
目 。 这 种 方法 的 示例 在 [Tho95] 给 出 。 

5. 示例 

合并 排序 。 合 并 排序 是 一 个 基于 分 治 策略 的 著名 排序 算法 ,应 用 它 对 一 个 包含 入 个 元 素 
的 数组 进行 排序 ， 如 下 所 示 。 

e 基本 情况 是 ， 数 组 的 长 度 小 于 某 一 阅 值 。 使 用 一 个 合适 的 串 行 排序 算法 对 它 进行 排 

Pr, 通常 是 快速 排序 算法 。 

e 在 划分 阶段 ， 把 数组 简单 地 划分 为 两 个 连续 的 子 数 组 ， 每 一 个 子 数组 的 长 度 为 N/2。 

e 在 子 问题 求解 阶段 ， 对 两 个 子 数 组 排序 〈 通 过 递归 地 调用 合并 排序 程序 完成 )。 

e 在 合并 阶段 ， 把 两 个 已 排序 的 子 数组 重新 合并 为 一 个 已 排序 的 数组 。 

通过 并 行 地 执行 两 个 递归 的 合并 排序 ， 这 个 算法 可 以 很 容易 地 并 行 化 。 

5.7 节 将 更 详细 地 介绍 这 个 示例 。 

和 矩阵 对 角 化 。Dongarra 和 Sorensen ( [DS87] ) 描述 了 对 一 个 对 称 三 角 和 矩阵 了 对 角 化 的 并 
行 算法 (计算 特征 向 量 和 特征 值 )。 问 题 是 寻找 一 个 矩阵 Q， 使 得 OTO 是 一 个 对 角 和 矩阵 ， 
所 使 用 的 分 治 策略 如 下 ( 忽略 了 数学 细节 ): | 

e 基本 情况 是 一 个 小 的 矩阵 ， 它 被 串 行 地 对 角 化 。 

e 划分 阶段 由 寻找 矩阵 T 和 向 量 &、v 组 成 ， 使 得 7T= 了 +， 并 且 了 的 形式 如 下 : 


bz 


其 中 ,Tl Ml To EXT PRAY — f BI ( 可 以 递归 地 调用 相同 的 步骤 将 它们 对 角 化 )。 

e 合并 阶段 将 对 角 化 矩阵 TI A T 重新 组 合 为 对 角 化 矩阵 T. 

详情 可 参考 [DS87] 或 [GL96]。 

知名 应 用 。 介 绍 算法 的 书籍 中 有 许多 基于 分 治 策 略 的 算法 示例 ， 其 中 大 多 数 都 可 以 利用 
这 种 模式 进行 并 行 化 。 

一 些 算法 频繁 地 利用 这 种 策略 进行 并 行 化 ,包括 : 用 在 N-body 仿真 中 的 BarnesHut 
[BH86] 算法 和 Fast Multipole [GC90] 算法 ; 一 些 信号 处 理 算法 ， 例 如 ， 离 散 傅 里 叶 变换 ; 带 
状 和 三 对 角 线 性 系统 中 的 一 些 算法 ， 例 如 ，ScaLAPACK 程序 包 [CD97, Sca] 中 的 一 些 算法 ; 
计算 几何 中 的 一 些 算法 ,例如 ， 凸 包 和 最 近邻 域 。 

TE FLAME M H [CGHvdG01] 中 大 量 使 用 了 分 治 模式 。 这 是 一 个 在 递归 算法 中 重 塑 线性 
代数 问题 的 大 项 目 ， 有 双重 动机 。 第 一 ， 在 数学 上 ， 这 些 算法 是 自然 递归 的 , 事实 上 ， 这 些 
算法 在 数学 上 的 讨论 大 多 也 都 是 递归 的 ; 第 二 ， 这 些 递 归 算 法 在 产生 可 移植 且 针 对 现代 微 处 
理 器 缓存 体系 结构 高 度 优 化 的 代码 方面 ， 已 经 被 证 明 是 特别 高 效 的 。 

6. 相关 模式 

一 个 基于 串 行 分 治 策略 的 算法 并 不 意味 着 它 必 须 利 用 分 治 模式 来 进行 并 行 化 。 分 治 模式 
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的 特点 是 任务 的 递归 安排 ， 从 而 导致 变化 的 并 发 性 和 潜在 的 高 系统 开销 ， 因 为 管理 递归 的 开 
销 是 非常 昂贵 的 。 但 是 ， 如 果子 问题 的 递归 分 解 可 以 重用 ， 然 后 使 用 某 些 其 他 的 模式 〈 例如， 

几何 分 解 模式 或 任务 并 行 模式 ) 进行 实际 的 计算 ， 则 进行 递归 分 解 可 能 更 有 效 。 例 如 ， 人 第 一 

个 产品 级 的 分 子 动力 学 程序 中 运用 了 快速 多 极 子 (fast multipole ) 算法 PMD [Win95]， 尽 管 初 

始 的 快速 多 极 子 算法 使 用 的 是 分 治 策略 ， 但 使 用 几何 分 解 模式 对 快速 多 极 子 算法 进行 并 行 化 。 

之 所 以 这 样 做 ， 是 因为 针对 每 个 原子 的 配置 进行 了 多 次 多 极 子 计算 。 


46 ”几何 分 解 模式 


1. 问题 

算法 如 何 围绕 着 一 个 已 经 分 解 为 多 个 同时 可 更 新 的 “ 块 ” 的 数据 结构 进行 组 织 ? 

2. 背景 

最 好 把 许多 重要 问题 理解 为 核心 数据 结构 上 的 操作 序列 。 在 计算 中 可 能 存在 其 他 的 工作 ， 
但 是 通过 理解 核心 数据 结构 是 如 何 更 新 的 ， 可 以 有 效 理解 整个 计算 。 对 于 这 种 问题 ， 表 示 并 
发 性 的 最 好 方式 是 根据 核心 数据 结构 的 分 解 ( 并 发 性 的 这 种 形式 有 时 称 为 域 分 解 ， 或 粗 粒度 
数据 并 行 性 )。 

这 些 数 据 结构 的 构建 方式 是 算法 的 基础 。 如 果 数 据 结构 是 递归 的 ， 并 行 性 分 析 必 须 考 
虑 这 种 递归 。 对 于 递归 数据 结构 ， 递 归 数 据 模 式 和 分 治 模式 很 可 能 是 两 种 候选 模式 。 对 于 数 
组 和 其 他 线性 数据 结构 ， 我 们 通常 可 以 通过 将 数据 结构 分 解 为 多 个 连续 的 子 结构 ， 将 问题 归 
约 为 多 个 潜在 的 并 发 部 件 ， 这 类 似 于 将 一 个 几何 区 域 划 分 为 多 个 子 区 域 的 方式 ， 即 所 谓 的 
几何 分 解 。 对 于 数组 ， 这 种 分 解 可 以 沿 着 一 维 或 多 维 进行 ， 分解 的 子 数组 通常 称 为 数组 块 
(block )。 对 于 子 结构 或 子 区 域 ， 我 们 将 使 用 术语 块 (chunk ) 表示 它们 ， 该 术语 还 可 以 表示 
一 些 更 普通 的 数据 结构 ， 如 图 (graph )。 

数据 到 块 的 分 解 暗含 着 更 新 操作 到 任务 的 分 解 ， 其 中 每 一 个 任务 表示 一 个 块 的 更 新 ， 并 
是 这 些 任务 可 以 并 发 地 执行 。 如 果 计 算是 严格 局 部 的 ， 即 所 需要 的 所 有 信息 都 在 块 内 ， 则 该 
并 发 性 是 易 并 行 的 ， 应 当 使 用 较 简单 的 任务 并 行 模式 。 但 是 ， 在 许多 情形 中 ， 更 新 操作 需要 
其 他 块 中 的 信息 (我们 称 这 些 块 为 邻居 块 ， 即 这 些 块 中 包含 的 数据 是 初始 全 局 数据 结构 附近 
的 数据 )。 在 这 些 情形 中 ， 信 息 必 须 在 块 间 通 过 共享 来 完成 更 新 。 

示例 : 网 格 计 算 程序 。 问 题 是 模拟 1D 热 扩 散 〈( 即 沿 着 一 个 无 限 狭窄 管道 的 热 扩 散 )。 初 
始 时 ， 整 个 管道 处 于 一 个 稳定 和 固定 的 温度 。 在 0 时 刻 ， 我 们 将 管道 两 端 设 置 为 不 同 的 温度 , 
在 整个 计算 期 间 ， 这 两 个 温度 保持 恒定 。 然 后 随 着 时 间 的 推移 ， 我 们 计算 管道 其 他 部 分 的 温 
度 是 如 何 变 化 的 (我们 所 期 望 的 是 ， 温度 从 管道 的 一 端 到 男 一 端 保持 平滑 的 梯度 )。 在 数学 
上 ， 这 个 问题 是 求解 一 个 表示 热 扩 散 的 DD 微分 公式 : 

aU _ PU (4-2) 
ot Ui9x 

所 使 用 的 方法 是 离散 化 问题 空间 (U 表 示 一 个 一 维 数组 ， 并 计算 一 个 离散 时 间 步 序列 的 
值 )。 当 计算 每 一 个 时 间 步 的 值 时 ， 将 输出 它 的 值 ， 因 此 仅 需 要 为 上 保存 两 个 时 间 步 的 值 。 
将 该 值 存储 在 两 个 数组 uk (U 在 时 间 步 的 值 ) 和 ukp1l (U 在 时 间 步 k+l 的 值 )。 在 每 一 个 
时 间 步 ， 需 要 为 数组 ukpl 中 的 每 一 个 点 计算 结果 : 
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ukp1[i]=uk [i] + (dt/ (dx*dx)) * (uk[i*1]-2*uk[i]*uk[i-1]); 

变量 dt 和 dx 分 别 表 示 离 散 时 间 步 间 的 间隔 和 离散 点 间 的 间隔 。 

我 们 发 现 ， 正 在 计算 的 是 在 每 一 点 处 变量 ukpl 的 一 个 新 值 ， 计 算 需 要 该 点 左边 邻居 点 
和 右边 邻居 点 的 数据 。 

可 以 通过 将 数组 uk 和 ukpl 划分 为 连续 的 子 数 组 〈 前面 描述 的 块 )， 为 这 个 问题 设计 一 
个 并 行 算法 。 这 些 块 可 以 并 发 地 操作 ， 从 而 给 出 可 挖掘 的 并 发 性 。 注 意 ， 我 们 处 于 这 样 一 种 
情形 之 中 ， 其 中 某 些 元 素 可 以 使 用 块 内 部 的 数据 进行 更 新 ， 而 某 些 元 素 却 需要 通过 访问 邻居 
块 中 的 数据 进行 更 新 ， 如 图 4-8 Aras. 





更 新 只 需要 局 部 信 E 
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图 4-8 热 扩 散 问 题 中 的 数据 依赖 性 。 深 色 块 表示 要 更 新 的 块 ， 浅 色 块 表示 更 新 需要 的 数据 


示例 : 矩阵 乘法 程序 。 考 虑 两 个 方 阵 的 乘法 ( 即 计算 C= 4xB )。 像 [FJL'88] 中 讨论 的 一 
样 ， 和 矩阵 可 以 划分 为 多 个 块 。 和 矩阵 乘法 定义 中 的 求 和 同样 组 织 为 块 ， 这 使 得 我 们 可 以 编写 一 
个 关于 块 的 矩阵 乘法 公式 

C! 2». A* . BY ( 4-3) 


ERATOR He, HIER AT BY， 并 将 它 累加 到 矩阵 和 中 。 

这 个 公式 立即 给 出 了 一 个 利用 几何 分 解 模式 的 解决 方案 ， 即 该 解决 方案 中 的 算法 基于 将 
数据 结构 划分 为 多 个 能 够 并 发 操作 的 块 ( 这 里 是 方形 块 )。 

为 了 更 加 清晰 地 了 解 这 个 问题 ， 考 虑 3 个 矩阵 都 划分 为 矩阵 块 的 情形 ， 其 中 每 一 个 任务 
“拥有 ”A、B、C 相应 的 矩阵 块 。 每 个 任务 将 运行 关于 上 的 求 pgm Emuw 
和 操作 来 计算 它 负 责 的 C 和 矩阵 块 ， 如 果 需 要， 任务 还 可 以 从 poqo onopgťgr 
其 他 任务 接收 矩阵 块 。 在 图 4-9 中 ， 我 们 演示 了 两 个 不 同 的 步 ”， 回 [L LI 畏 ode 
又 ， 在 这 个 过 程 中 ， 显 示 了 一 个 正在 更 新 的 矩阵 块 ( 深 色 块 ) HOOO OOOO 


y 2 l ; Z2 
和 所 需要 的 矩阵 块 《 浅 色 块 ) 其 中 ,了 矩阵 的 矩阵 块 被 传递 ”图 43 MMRR REENE 
一 行 ， 而 8 矩阵 的 矩阵 块 被 传递 一 列 。 依赖 性 。 在 两 个 步 又 中 ， 
3. 面临 的 问题 深 色 块 表示 正在 更 新 的 
。 为 了 挖掘 问题 中 的 潜在 并 发 性 ， 我 们 必须 将 分 解 的 数 块 (C); 浅 色 块 表示 
据 结 构 的 块 分 配给 UE。 理 想 情况 下 ， 我 们 想 采用 一 更 新 C 所 需要 的 4 BOX 
种 简单 、 可 移植 、 可 扩展 和 高 效 的 方式 完成 这 个 工作 。 EPR CN} 


然而 ， 如 4.1 市 所 述 ， 这 些 目 标 可 能 相互 冲突 。 需 要 考虑 的 关键 是 如 何平 衡 负 载 ， 即 
确保 所 有 的 UE 具有 近似 相等 的 工作 量 。 

o 我 们 还 必须 确保 每 一 个 块 更 新 时 所 需要 的 数据 在 需要 时 能 够 存在 。 这 个 问题 与 任务 并 
行 模式 中 管理 数据 依赖 性 的 问题 类 似 。 在 设计 时 ， 我 们 必须 牢记 简单 性 、 可 移植 性 、 
可 扩展 性 和 效率 有 时 是 相互 冲突 的 目标 。 
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4. 解决 方案 

适合 这 种 模式 的 问题 的 设计 包含 如 下 关键 因素 : 全 局 数据 结构 被 分 割 为 多 个 子 结构 或 
“ 块 ”( 数据 分 解 )， 确 保 每 一 个 任务 能 够 访问 它 所 需要 的 所 有 数据 ， 以 完成 它 负 责 的 块 的 交互 
操作 和 块 的 更 新 操作 ; 采用 一 种 可 获得 良好 性 能 的 映射 方式 完成 块 到 任务 的 映射 ( 数据 分 配 
和 任务 调度 )。 

数据 分 解 。 数 据 分 解 的 粒度 对 程序 的 性 能 具有 重要 的 影响 。 在 粗 粒 度 分 解 中 ， 存 在 较 少 
数目 的 大 块 。 这 将 产生 数目 较 少 的 大 消息 ， 这 样 可 以 极 大 地 降低 通信 开销 。 另 一 方面 ， 细 粒 
度 分 解 将 导致 数目 较 大 的 较 小 块 ， 在 许多 情形 中 ， 这 将 产生 比 PE 数目 还 多 的 块 ， 从 而 导致 数 
目 较 大 的 较 小 消息 〈 因此 增加 通信 开销 )， 但 是 它 极 大 地 方便 了 负载 平衡 。 

尽管 在 某 些 情形 下 可 以 通过 数学 方法 为 数据 分 解 推导 出 一 个 最 优 的 粒度 ， 但 程序 员 通 党 
对 某 个 范围 的 块 大 小 进行 实验 ， 根 据 经 验 确 定 给 定 系统 的 最 佳 粒 度 。 当 然 ， 这 依赖 于 PE 的 计 
算 性 能 和 通信 网 络 的 性 能 特征 。 因 此 ， 所 实现 的 程序 的 粒度 应 当 由 参数 来 控制 ， 这 些 参 数 在 
编译 时 或 运行 时 很 容易 改变 。 

任务 分 解 的 块 的 形状 也 能 够 影响 任务 间 所 需要 的 通信 量 。 通 常 ， 任 务 间 共享 的 数据 被 限 
制 为 块 的 边界 处 的 数据 。 在 这 种 情形 中 ， 共 享 信息 量 随 着 块 的 表面 积 的 大 小 而 缩放 。 因 为 计 
算 量 也 随 着 一 个 块 内 的 点 的 数目 而 缩放 ， 所 以 它 随 着 该 区 域 的 容积 而 缩放 。 可 以 开发 利用 这 
种 表面 积 对 容积 (surface to volume) 作用 来 最 大 化 计算 与 通信 的 比例 。 因 此 ， 通 常 需要 进 
行 较 高 维 的 分 解 ， 例 如 ， 考 虑 一 个 NxNN 甜 阵 分 解 为 4 个 块 的 两 种 不 同 分 解 模 式 。 在 第 一 种 
情形 中 ， 我 们 将 问题 分 解 为 4 列 的 块 ， 每 一 块 的 大 小 为 Nx (W4)。 在 第 二 种 情形 中 ， 我 们 将 
问题 分 解 为 4 个 方块 ， 大 小 为 (N/2) x(N/2)。 对 于 块 的 列 分 解 ， 表 面积 为 2N+2(N/4)， 或 者 
5N/2。 对 于 方块 分 解 ， 表 面积 是 4(N/2)， 或 者 2V。 因 此 ， 对 于 方块 分 解 来 说 ， 需 要 交换 的 数 
据 总 量 较 少 。 

在 某 些 情形 中 ， 最 好 的 分 解 形状 受 其 他 一 些 因 素 影 响 。 例 如 ， 在 某 个 情形 中 ， 对 于 较 低 
维 的 分 解 来 说 ， 可 以 很 容易 地 使 现存 的 串 行 代 码 被 重用 ， 并且 潜在 的 性 能 增加 不 值得 重新 编 
写 代 码 。 此 外 ， 这 种 模式 的 一 个 实例 可 以 作为 一 个 串 行 步骤 用 在 一 个 较 大 的 计算 中 。 如 果 在 
相 邻 步骤 中 使 用 的 分 解 与 单独 使 用 这 种 模式 所 使 用 的 最 佳 分 解 不 同 ， 则 可 能 值得 也 可 能 不 值 
得 为 这 个 步骤 重新 分 配 数据 。 特 别 是 在 分 布 式 存 储 系统 中 ， 这 是 一 个 非常 重要 的 问题 。 在 分 
布 式 存 储 系统 中 ， 重 新 分 配 数据 将 需要 大 量 的 通信 ， 整 个 计算 将 延迟 。 因 此 ， 数 据 分 解 的 决 
策 必须 考虑 串 行 代码 重用 的 能 力 和 计算 中 与 其 他 步骤 交互 的 需要 。 注 意 ， 这 些 考虑 因素 所 产 
生 的 分 解 在 其 他 情形 中 可 能 不 是 最 理想 的 。 

通过 复制 一 个 块 中 的 数据 更 新 需要 的 非 局 部 数据 ， 通 常 可 以 更 加 高 效 地 管理 通信 。 例 如 ， 
如 果 数 据 结 构 是 一 个 表示 网 格 中 的 点 的 数组 ， 并 且 更 新 操作 使 用 网 格 中 的 一 个 局 部 邻近 点 ， 
则 一 种 常用 的 通信 管理 技术 是 在 该 块 的 数据 结构 之 外 环绕 一 个 影像 边界 ( ghost boundary ), 
用 于 包含 邻近 块 边界 处 的 数据 的 副本 。 因 此 现在 每 一 块 具有 两 部 分 UE 所 拥有 的 主 副 本 CE 
将 被 直接 更 新 ) 和 和 零 个 或 多 个 影像 副本 (也 称 为 阴影 副本 )。 这 些 影像 副本 有 两 个 优点 。 首 
w., 它们 的 使 用 可 以 合并 通信 而 使 得 通信 的 消息 数量 变 少 ， 而 消息 内 容 变 多 。 在 延迟 敏感 的 
网 络 中 ， 这 样 可 以 极 大 地 降低 通信 开销 。 第 二 ， 影 像 副本 的 通信 可 以 与 那些 不 依赖 该 影像 副 
本 内 的 数据 的 数组 部 分 的 更 新 相 重 登 ( 即 可 以 并 发 地 执行 )。 实 质 上 ， 这 将 通信 开销 隐藏 在 有 
用 的 计算 之 下 ， 从 而 降低 了 可 见 的 通信 开销 。 
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例如 ， 在 之 前 讨论 的 网 格 计算 的 示例 中 ， 每 一 个 块 的 每 一 端 将 被 扩展 一 个 单元 。 这 些 特 
别 的 单元 将 用 作 块 的 边界 单元 的 影像 副本 。 图 4-10 演示 了 这 种 策略 。 


mM EAN B] I BAN 
图 4-10 影像 边界 的 一 个 数据 分 布 ( 阴影 单元 是 影像 副本 ， 箭 头 从 主 副本 指向 对 应 的 副 副本 ) 


交换 操作 。 正 确 使 用 这 种 模式 的 关键 因素 是 ， 确 保 更 新 操作 所 需要 的 非 局 部 数据 在 使 用 
之 前 可 以 获得 。 

如 果 所 需要 的 所 有 数据 在 更 新 操作 开始 之 前 都 能 够 提供 ， 最 简单 的 方法 是 在 更 新 开始 
之 前 完成 整个 交换 ， 将 所 需要 的 非 局 部 数据 存储 在 一 个 专门 设计 的 局 部 数据 结构 中 ( 例如 ， 
网 格 计算 中 的 影像 边界 )。 无 论 是 使 用 复制 还 是 使 用 消息 传递 ， 这 种 方法 使 用 起 来 都 相对 
简单 。 
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法 获得 ， 这 样 的 方法 是 必需 的 ， 并 且 在 其 他 的 情形 中 也 能 够 提高 性 能 。 例 如 ， 在 网 格 计算 的 
例子 中 ， 影 像 单元 的 交换 和 内 部 区 域 中 单元 〈 它 不 依赖 于 影像 单元 ) 的 更 新 可 以 并 发 进行 。 
交换 完成 后 ， 可 以 更 新 边界 层 〈 这 些 值 不 依赖 于 影像 单元 ) 在 通信 和 计算 并 行进 行 的 系统 
中 ， 这 种 方法 节约 的 时 间 是 显著 的 。 这 是 并 行 算法 一 个 非常 通用 的 特征 ， 标 准 通信 API (如 
MPI) 包含 消息 传递 例 程 的 整个 类 ， 从 而 完成 计算 和 通信 的 重合 。 这 些 将 在 附录 B 中 更 加 详 
细 地 讨论 。 

交换 操作 实现 方式 的 底层 细节 对 效率 具有 重大 影响 。 程 序 员 应 当 挑选 出 通信 模式 的 最 佳 
实现 ， 以 用 于 程序 中 。 例 如 ， 在 许多 应 用 程序 中 ， 消 息 传 递 库 (An MPI) 中 许多 集合 通信 例 
程 是 非常 有 用 的 。 这 些 例 程 已 经 被 精心 优化 过 了 ， 并 且 所 使 用 的 技术 超出 了 许多 并 行程 序 员 
的 能 力 〈 6.4.2 节 会 讨论 其 中 的 一 些 技 术 )， 因 此 应 当 尽 可 能 地 使 用 它们 。 

更 新 操作 。 通 过 并 发 地 执行 相应 的 任务 完成 数据 结构 的 更 新 ( 每 一 个 任务 负责 数据 结构 
一 个 块 的 更 新 )。 如 果 所 需要 的 所 有 数据 在 更 新 操作 开始 之 前 已 提供 ,并 且 这 些 数据 在 更 新 过 
程 中 都 不 修改 ， 则 并 行 化 是 较 简单 的 ， 并 且 也 可 能 更 有 效 。 

如 果 所 需要 的 信息 交换 在 更 新 操作 开始 之 前 已 经 执行 ， 则 更 新 本 身 是 很 容易 实现 的 ， 它 
实质 上 与 一 个 与 之 相当 的 串 行程 序 中 的 更 新 完全 一 致 ， 特 别 是 在 如 何 表示 非 局 部 数据 方面 已 
经 做 了 很 好 的 选择 的 情况 下 。 

如 果 交 换 操 作 和 更 新 操作 重合 ， 则 需要 特别 小 心 以 确保 更 新 正确 地 执行 。 如 果 系 统 支 持 
与 通信 系统 很 好 集成 的 轻 量 级 线程 ， 则 可 以 在 单个 任务 内 通过 多 线程 来 完成 重 全 ,其 中 一 个 
线程 负责 计算 ， 男 外 一 个 线程 处 理 通 信 。 在 这 种 情形 中 ， 线 程 之 间 的 同步 是 必要 的 。 

在 某 些 系 统 ( 如 MPI) 中 ， 通 过 配合 通信 和 原 语 来 支持 非 阻塞 通信 : 一 个 通信 原 语 用 于 启 
动 通信 (无 阻塞 )， 而 另 一 个 (阻塞 ) 用 于 完成 操作 和 使 用 结果 。 为 了 最 大 化 重合， 通信 应 当 
尽 可 能 早 地 启动 ， 而 且 应 当 尽 可 能 晚 地 结束 。 有 了 时， 为 了 获得 更 多 的 重 倒 ， 人 允许 在 不 改变 算 
法 语义 的 前 提 下 ， 对 操作 重新 排序 。 

数据 分 布 和 任务 调度 。 为 适合 这 种 模式 的 问题 设计 一 个 并 行 算法 的 最 后 一 步 是 确定 如 何 
将 任务 集 ( 每 个 任务 对 应 于 每 块 的 更 新 ) 映射 到 UE 上 。 于 是 可 以 认为 每 个 UE“ 拥 有 ”关于 
块 的 一 个 集合 和 它们 所 包含 的 数据 。 因 此 ， 对 于 在 UE 间 分 配 数据 ， 我 们 具有 一 个 双重 策略 : 

首先 将 数据 分 解 为 多 个 块 ， 然 后 把 这 些 块 分 给 UE。 该 方案 足够 灵活 地 表示 在 UE 间 分 布 数据 
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的 各 种 各 样 的 策略 。 

在 最 简单 的 情形 中 ， 可 以 给 每 一 个 任务 静态 地 分 配 一 个 单独 的 UE， 然 后 所 有 的 任务 可 
以 并 发 地 执行 ， 并 且 实 现 交换 操作 所 需要 的 任务 间 协 作 也 非常 简单 。 当 任务 的 计算 时 间 是 
HIK, 并且 被 实现 的 交换 操作 可 以 重 倒 每 一 个 任务 内 的 计算 与 通信 时 ， 这 种 方法 是 最 适 
合 的 。 

但 是 ， 在 某 些 情况 下 ， 这 种 简单 方法 可 能 导致 较 差 的 负载 平衡 。 例 如 ， 考 虑 一 个 线性 代 
数 问 题 。 在 该 问题 中 ， 随 着 计算 的 进行 ， 和 矩阵 的 元 素 被 逐渐 地 消除 。 在 计算 的 早期 矩阵 的 
所 有 行 和 列 有 大 量 的 元 素 待 处 理 ， 基 于 将 整个 行 或 列 分 配给 UE 的 分 解 是 高 效 的 。 但 是 , 在 
计算 的 后 期 ， 行 和 列 变 得 很 稀 玖 ， 每 一 行 的 任务 量变 得 不 均匀 ，UE 间 的 计算 负载 变 得 很 不 平 
衡 。 解 决 方案 是 将 问题 分 解 为 更 多 的 块 ， 并 采用 周期 或 块 周期 分 配方 式 将 它们 分 配 到 UE 上 
( 周期 或 块 周 期 分 配 将 在 $.10 节 中 讨论 )。 然 后 ， 当 块 变 得 稀 朴 时 (可 能 性 非常 大 )， 存 在 其 
他 的 非 稀 疏 块 可 以 用 任意 给 定 的 UE 去 处 理 ， 负 载 将 变 得 非常 平衡 。 为 了 很 好 地 实现 负载 平 
衡 ， 一 个 经 验 法 则 是 任务 的 数目 大 约 是 UE 数目 的 10 fers 

也 可 以 使 用 动态 负载 平衡 算法 周期 性 地 在 UE 间 重 新 分 配 块 ， 以 改善 负载 平衡 。 这 些 工 
作 带 来 的 额外 开销 必须 权衡 改善 的 负载 平衡 带 来 的 改进 和 增加 的 实现 成 本 。 另 外 ， 使 用 该 方 
法 的 程序 比 那 些 只 使 用 一 种 静态 方法 的 程序 要 复杂 得 多 。 通 和 常 ， 应 当 首先 考虑 〈 静态 ) 循环 
分 配 策略 。 

程序 结构 。 对 于 这 种 模式 的 应 用 程序 来 说 ， 整 体 程序 结构 通 稼 使 用 循环 并 行 模式 或 
SPMD 模式 ， 具 体 选 择 哪 种 模式 ， 很 大 程度 上 依赖 于 目标 平台 。 循 环 并 行 模式 和 SPMD 模式 
将 在 第 5 章 中 描述 。 

5. 示例 

我 们 在 这 种 模式 中 包含 两 个 示例 : 网 格 计算 和 和 矩阵 乘法 。 应 用 几何 分 解 模式 的 挑战 在 于 
最 终 程序 的 底层 细节 。 因 此 ， 尽 管 到 目前 为 止 在 程序 中 使 用 的 这 些 技术 还 未 完全 介绍 ， 但 在 
本 书 的 后 面 将 介绍 。 我 们 将 在 本 节 中 提供 完整 的 程序 ， 而 不 是 解决 方案 的 高 层次 描述 。 

网 格 计算 。 该 问题 的 描述 参见 本 节 前 面 的 内 容 。 图 4 -11 展示 了 一 个 简单 的 串 行 版 本 程序 
(忽略 了 某 些 细节 )， 该 程序 求解 了 1D 热 扩 散 问 题 。 这 个 程序 非常 简单 ， 需 要 进一步 解释 的 
程序 细节 是 : 在 每 一 步 计算 完 ukpl 的 新 值 之 后 ， 概 念 上 ， 我 们 要 做 的 就 是 将 它们 复制 到 uk 
中 ， 以 备 下 一 次 迭代 使 用 。 在 每 一 步 结 束 时 ， 通 过 简单 地 将 uk 和 ukp1 指针 交换 来 避免 非常 
耗 时 的 实际 复制 。 这 使 得 uk 指向 刚刚 计算 过 的 新 值 ，ukp1 指向 用 于 在 下 一 次 迭代 中 计算 新 
值 所 需要 的 区 域 。 


#include <stdio.h> 
#include <stdlib.h> 
#define NX 100 
#define LEFTVAL 1.0 
#define RIGHTVAL 10.0 
#define NSTEPS 10000 


void initialize(double uk[], double ukpi[]) 1 
uk [0] = LEFTVAL; uk[NX-1] = RIGHTVAL ; 
for (int i = 1; i < NX-1; ++i) 
uk[i] = 0.0; 
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for (int i = 0; i < NX; ++i) 
ukpi[i] = uk[i]; 


void printValues(double uk[], int step) { /* NOT SHOWN */ ) 


int main(void) { 
/* pointers to arrays for two iterations of algorithm */ 
double *uk = malloc(sizeof(double) * NX); 
double *ukpi = malloc(sizeof(double) * NX); 
double *temp; 


double dx = 1.0/NX; 
double dt = 0.5*dx*dx; 


initialize(uk, ukp1) ; 


for (int k = 0; k < NSTEPS; ++k) ( 
/* compute new values */ 


for (int i = 1; i < NX-1; ++i) { 
ukpi[i]suk[i]* (dt/(dx*dx))*(uk[i*1]-2*uk[i]-*uk[i-1]); 
) 


/* "copy" ukp1 to uk by swapping pointers */ 
temp = ukpi; ukpi = uk; uk = temp; 
printValues(uk, k); 


return 0; 





图 4-11 (X) 


这 个 程序 组 合 了 一 个 高 层 串 行 控制 结构 ( 时间 步 循环 ) 与 一 个 数组 的 更 新 操作 ， 可 以 
使 用 几何 分 解 模 式 将 其 并 行 化 。 我 们 将 展示 使 用 OpenMP 和 MPI 来 完成 这 个 程序 的 并 行 
实现 。 

OpenMP 解决 方案 。 使 用 了 OpenMP 和 循环 并 行 模式 的 程序 的 一 个 特别 简单 的 版 本 ， 如 
4-12 所 示 。 因 为 OpenMP 是 一 种 共享 内 存 编程 模型 ， 所 以 没有 必要 显 式 地 分 解 和 分 配 两 个 
主要 数组 (uk 与 ukpl )。 线 程 的 创建 和 线程 间 工 作 的 分 配 由 parallel for 指令 完成 ， 如 
PATA: 


#pragma parallel for schedule(static) 


schedule (static) 子 句 将 并 行 循 环 的 迭代 分 解 为 多 个 连续 的 块 ， 每 一 个 块 的 大 小 近 
似 相 等 ， 由 每 一 个 线程 处 理 一 个 块 。 这 种 调度 对 于 实现 几何 分 解 模式 的 循环 并 行程 序 来 说 非 
党 重要。 对 于 大 多 数 几 何 分 解 问题 来 说 ( 特别 是 网 格 程 序 )， 处 理 带 缓存 中 的 数据 在 被 新 的 组 
存 行 的 数据 替换 之 前 ， 应 当 已 使 用 很 多 次 ， 这 样 才 会 获得 好 的 程序 性 能 。 使 用 连续 循环 迭代 
中 较 大 的 块 将 增加 所 预 取 的 缓存 行 中 的 多 个 值 被 利用 的 机 会 ， 并 增加 后 续 循 环 迭 代 在 当前 组 
存 中 至 少 找到 所 需要 数据 的 机 会 。 

对 于 图 4-12 中 的 程序 来 说 ， 所 需要 讨论 的 最 后 一 个 细节 是 安全 复制 指针 所 需要 的 同 
步 。 所 有 线程 在 为 下 一 次 迭代 完成 它们 所 操纵 的 指针 交换 之 前 ， 必 须 完成 它们 负责 的 工作 ， 
这 一 点 非常 重要 。 在 这 个 程序 中 ， 根 据 并 行 循环 结尾 处 隐 含 的 栅栏 自动 地 完成 同步 ( 参考 
6.3.2 F ). 
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#include <stdio.h> 
#include <stdlib.h> 
#define NX 100 
#define LEFTVAL 1.0 
#define RIGHTVAL 10.0 
#define NSTEPS 10000 


void initialize(double uk[], double ukpi[]) { 
uk[0] = LEFTVAL; uk[NX-1] = RIGHTVAL; 
for (int i = 1; i « NX-1; ++i) 
uk[i] = 0.0; 
for (int i = 0; i « NX; ++i) 
ukpi[i] = uk[il; 
} 


void printValues(double uk[], int step) { /* NOT SHOWN */ } 


int main(void) { 
/* pointers to arrays for two iterations of algorithm */ 
double *uk = malloc(sizeof(double) * NX); 
double *ukpi = malloc(sizeof(double) * NX); 
double *temp; 


double dx = 1.0/NX; 
double dt = 0.5*dx*dx; 


initialize(uk, ukpi); 


for (int k = 0; k < NSTEPS; ++k) { 


#pragma omp parallel for schedule(static) 
/* compute new values */ 
for (int i = 1; i < NX-1; ++i) { 
ukpi[i]-uk[i]* (dt/(dx*dx))*(uk[i*i]-2*uk[i]*uk[i-1]); 


/* "copy" ukp1 to uk by swapping pointers */ 
temp = ukpi; ukpl = uk; uk = temp; 
printValues(uk, k); 


return 0; 





图 4-12 使 用 OpenMP 的 并 行 热 扩散 程序 


图 4-12 中 的 程序 在 线程 数目 较 少 时 能 够 很 好 地 工作 。 但 是 ， 当 涉及 的 线程 数目 较 多 时 ， 
循环 k 内 部 的 线程 的 创建 和 销毁 所 带 来 的 开销 将 是 令 人 望而却步 的 。 可 以 降低 线程 管理 的 开 
销 ， 具 体 方式 是 将 parallel for 指令 分 解 为 单独 的 parallel 指令 和 for 指令 ， 并 将 线 
程 的 创建 移动 到 循环 k 的 外 部 。 图 4-13 展示 了 这 种 方法 。 现 在 因为 整个 k 的 循环 位 于 一 个 并 
行 区 域 的 内 部 ， 所 以 我 们 必须 对 数据 在 线程 间 的 共享 更 加 谨慎。private 子 句 声明 循环 索引 
k Ali 为 每 一 个 线程 的 局 部 变量 。 但 是 ， 指 针 uk 和 ukpl 是 共享 的 ， 因 此 交换 操作 必须 受到 
保护 。 最 简单 的 方式 是 确保 只 有 一 个 线程 进行 了 交换 操作 。 在 OpenMP 中 ， 完 成 该 工作 的 简 
单方 式 是 将 更 新 操作 放置 到 一 个 single 构造 中 。 附 录 A 详细 地 描述 了 这 一 点 ， 遇 到 该 结构 
的 第 一 个 线程 将 完成 交换 操作 ， 而 其 他 线程 将 在 该 结构 的 结尾 处 等 待 。 

MPI 解决 方案 。 关 于 该 示例 的 一 个 基于 MPI 的 程序 如 图 4-14 和 图 4-15 所 示 。 这 个 程序 
所 使 用 的 方法 使 用 了 一 个 对 影像 单元 的 数据 分 配 和 SPMD 模式 。 
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#include <stdio.h> 
#include <stdlib.h> 
#include <omp.h> 
#define NX 100 
#define LEFTVAL 1.0 
#define RIGHTVAL 10.0 
#define NSTEPS 10000 


void initialize(double uk[], double ukpi[])(/* NOT SHOWN */) 
void printValues(double uk[], int step) { /* NOT SHOWN */ } 


int main(void) ( 
/* pointers to arrays for tuo iterations of algorithm */ 
double *uk = malloc(sizeof(double) * NX); 
double *ukp1 = malloc(sizeof(double) * NX); 
double *temp; 
int i,k; 


double dx = 1.0/NX; 
double dt = 0.5*dx*dx; 


#pragma omp parallel private (k, i) 
{ 
initialize(uk, ukp1); 


for (k = 0; k < NSTEPS; ++k) { 
#pragma omp for schedule(static) 
for (i = 1; i < NX-1; ++i) { 
ukpl[i]=uk[i]+ (dt/(dx*dx))*(uk[i*1]-2*uk[i]*uk[i-1]); 
} 
/* "copy" ukp1 to uk by swapping pointers */ 
#pragma omp single 
{ temp = ukp1; ukpl = uk; uk = temp; ) 
} 
} 
return 0; 


} 





图 4-13 ”使 用 OpenMP 的 并 行 热 扩 散 程序 〈 这 个 版 本 具有 较 少 的 线程 管理 开销 ) 


#include <stdio.h> 
#include <stdlib.h> 
#include <string.h> 
#include <mpi.h> 
#define NX 100 
#define LEFTVAL 1.0 
#define RIGHTVAL 10.0 
#define NSTEPS 10000 


void initialize(double uk[], double ukpi[], int numPoints, 
int numProcs, int myID) { 
for (int i = 1; i <= numPoints; ++i) 
uk[i] = 0.0; 

/* left endpoint */ 

if (myID == 0) uk[1] = LEFTVAL; 

/* right endpoint */ 

if (myID == numProcs-1) uk[numPoints] = RIGHTVAL; 

/* copy values to ukpl */ 

for (int i = 1; i <= numPoints; ++i) ukpi[i] = uk[i]; 
) 


void printValues(double uk[], int step, int numPoints, int myID) 


图 4-14 使 用 MPI 的 并 行 热 扩散 程序 ( 续 见 图 4-15 ) 
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{ /* NOT SHOWN */ } 


int main(int argc, char *argv[]) { 
/* pointers to arrays for two iterations of algorithm */ 
double *uk, *ukpi, *temp; 


double dx = 1.0/NX; double dt = 0.5*dx*dx; 


int numProcs, myID, leftNbr, rightNbr, numPoints; 
MPI Status status; 


/* MPI initialization */ 

MPI Init(&£argc, &argv); 

MPI_Comm_size (MPI.COMM. WORLD, &numProcs) ; 
MPI_Comm_rank(MPI_COMM_WORLD, &myID); //get oum ID 


/* initialization of other variables */ 

leftNbr = myID - 1; // ID of left "neighbor" process 
rightNbr = myID + 1; // ID of right "neighbor" process 
numPoints = (NX / numProcs) ; 

/* uk, ukp1 include a "ghost cell" at each end */ 

uk = malloc(sizeof(double) * (numPoints+2)); 

ukpi = malloc(sizeof(double) * (numPoints*2)); 


initialize(uk, ukpi, numPoints, numProcs, myID); 
/* continued in next figure */ 


图 4-14 (A) 


/* continued from Figure 4.14 */ 
for (int k = 0; k < NSTEPS; ++k) { 


/* exchange boundary information */ 
if (myID != 0) 
MPI Send(&uk[1], 1, MPI DOUBLE, leftNbr, 0, 
MPI,. COMM, WORLD) ; 
if (myID != numProcs-1) 
MPI Send(&uk[numPoints], 1, MPI_DOUBLE, rightNbr, 0, 
MPI_COMM_WORLD) ; 
if (myID != 0) 
MPI_Recv(&uk(0], 1, MPI DOUBLE, leftNbr, 0, 
MPI_COMM_WORLD, &status) ; 
if (myID != numProcs-1) 
MPI Recv(&uk[numPoints*1],1, MPI DOUBLE, rightNbr, 0, 
MPI COMM WORLD, &status); 


/* compute new values for interior points */ 
for (int i = 2; i < numPoints; ++i) ( 
ukpi[i]-uk[i]* (dt/(dx*dx))*(uk[i*1]-2*uk [i]*uk[i-11); 
} 
/* compute new values for boundary points */ 
if (myID != 0) { 
int i=1; 
ukpi[i]-uk[i]* (dt/(dx*dx))*(uk[i*1]-2*uk[i]*uk[i-1]); 
(myID != numProcs-1) ( 


int i-numPoints; 
ukpi[i]-uk[i]* (dt/(dx*dx))*(uk[i*1]-2*uk[i]*uk[i-1]); 


"copy" ukpi to uk by swapping pointers */ 


图 4-15 ”使 用 MPI 的 并 行 热 扩散 程序 ( SER 4-14 ) 








63 


temp = ukpi; ukpi = uk; uk = temp; 


printValues(uk, k, numPoints, myID); 


/* clean up and end */ 
MPI_Finalize(); 
return 0; 





图 4-15 (5) 


每 个 进程 被 赋予 一 个 数据 域 大 小 为 NX/NP 的 块 ， 其 中 NX 是 全 局 数据 数组 的 总 大 小 ，NP 
是 进程 的 数目 。 为 了 简单 起 见 ， 设 NX 可 以 被 NP 整除 。 

块 的 更 新 是 简单 的 ， 实 质 上 与 串 行 代码 中 的 方法 一 样 。 这 个 MPI 程序 的 长 度 和 较 大 的 复 
杂 性 源 于 两 个 方面 : 第 一 ， 数 据 初 始 化 更 复杂 ， 因 为 它 必 须 考 虑 第 一 个 块 和 最 后 一 个 块 边缘 
处 的 数据 值 ; 第 二 ， 在 关于 k 的 循环 内 部 需要 消息 传递 例 程 来 交换 影像 单元 。 

在 附录 B 中 可 以 找到 消息 传递 函数 的 细节 。 简 而 言 之 ， 数 据 转发 由 两 部 分 组 成 : 一 个 进 
程 负责 一 个 发 送 操作 ， 这 需要 指定 包含 发 送 数 据 的 缓冲 区 ; 而 男 一 个 进程 负责 一 个 接收 操作 ， 
这 需要 指定 存放 所 接收 到 的 数据 的 缓冲 区 。 我 们 需要 几 个 不 同 的 发 送 和 接收 对 ， 因 为 拥有 数 
组 最 左 块 的 进程 不 具有 一 个 与 之 通信 的 左 邻 居 ， 相 似 地 ， 拥 有 数组 最 右 块 的 进程 不 具有 一 个 
与 之 通信 的 右 邻 居 。 

如 本 节 前 面 所 述 ， 可 以 使 用 非 阻塞 通信 来 重 又 计算 和 通信 ， 进 一 步 修 改 图 4-14 和 图 4-15 
中 的 代码 。 与 第 一 个 网 格 计算 MPI 程序 (C 即 图 4-14 中 的 程序 ) 相 比 ， 新 程序 的 第 一 部 分 未 发 
生变 化 。 差 别 位 于 程序 的 第 二 部 分 ， 即 包含 主要 计算 循环 的 地 方 。 该 代码 如 图 4-16 所 示 。 


/* continued */ 
MPI_Request reqRecvL, reqRecvR, reqSendL, reqSendR; //needed for 
// nonblocking I/0 


for (int k = 0; k « NSTEPS; **k) ( 
/* initiate communication to exchange boundary information */ 
if (myID != 0) 1{ 
MPI Irecv(&uk[O], 1, MPI DOUBLE, leftNbr, 0, 
MPI COMM WORLD, &reqRecvL); 
MPI Isend(&uk[1], 1, MPI. DOUBLE, leftNbr, O, 
MPI COMM WORLD, &reqSendL) ; 
t 
if (myID != numProcs-1) { 
MPI Irecv(&uk[numPoints*1],1, MPI DOUBLE, rightNbr, 0, 
MPI. COMM WORLD, &reqRecvR) ; 
MPI Isend(&uk[numPoints], 1, MPI DOUBLE, rightNbr, 0, 
MPI.COMM WORLD, &reqSendR) ; 
) 
/* compute new values for interior points */ 
for (int i = 2; i < numPoints; ++i) ( 
ukpi[i]-uk[i]* (dt/(dx*dx))*(uk[i*1]-2*uk[i]*uk[i-1]); 


/* wait for communication to complete */ 
if (myID != 0) { 
MPI Wait(&reqRecvL, &status); MPI Wait(&kreqSendL, &status); 


} 
if (myID != numProcs-1) { 
MPI Wait(&reqRecvR, &status); MPI Wait(&reqSendR, Estatus); 





图 4-16 使 用 了 MPI 的 并 行 热 扩 散 程 序 ， 其 中 重 全 了 通信 与 计算 CAE 4-14) 
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} 
/* compute new values for boundary points */ 
if (myID != 0) { 
int i=1; 
ukpil[i]zuk[i]* (dt/(dx*dx))*(uk[i*1]-2*uk[i]*uk[i-1]); 


} 
if (myID != numProcs-1) { 


int i=numPoints; 
ukpi[i]szuk[i]* (dt/(dx*dx) )* (uk [i+1]-2*uk [i] +uk [i-1)) ; 


/* "copy" ukp1 to uk by swapping pointers */ 
temp = ukpi; ukpi = uk; uk = temp; 


printValues(uk, k, numPoints, myID); 


/* clean up and end */ 
MPI_Finalize() ; 
return 0; 


} 





图 4-16 ( 22) 


虽然 基本 算法 相同 ， 但 是 通信 方式 的 差别 非常 大 。 立 即 模式 通信 例 程 MPI_Isend 和 
MPI IRecv 用 来 建立 和 启动 通信 事件。 这 两 个 函数 (在 附录 B 中 有 更 详细 的 描述 ) 立即 返 
回 。 因 为 内 部 点 不 依赖 于 通信 的 结果 ， 所 以 可 以 进行 内 部 点 的 更 新 操作 。 直 到 通信 完成 才能 
调用 函数 ， 并 使 用 通信 事件 的 结果 完成 每 个 UE 负责 的 块 的 边缘 更 新 。 在 这 种 情形 中 ， 消 息 
较 小 ， 因 此 这 个 版 本 的 程序 未 必 比 第 一 个 程序 快 。 但 很 容易 设想 一 种 情形 ， 其 中 引入 了 大 的 、 
复杂 的 通信 事件 ， 当 消息 在 计算 机 网 络 间 移动 时 ， 能 够 做 一 些 有 意义 的 工作 ， 这 样 将 齐 来 显 
著 的 性 能 提升 。 

和 矩 阵 乘 法 。 本 节 前 面 描述 了 矩阵 乘法 问题 。 基 于 将 NXN 甜 阵 分 解 为 NB*NB 个 方块 ， 
图 4-17 给 出 了 一 个 计算 所 需 结果 的 简单 串 行程 序 。 注 释 中 的 符号 block[i] [j] 表示 前 面 描 
述 的 第 (1,3) 个 块 。 为 了 简化 C 语言 代码 ， 将 矩阵 表示 为 多 个 1D 数组 ( 内 部 按照 行 优先 
的 排列 顺序 )， 并 定义 一 个 宏 plockstart， 用 于 在 其 中 某 个 1D 数组 中 寻找 一 个 子 和 矩阵 的 左 
上 角 。 我 们 省 略 了 initialize 图 数 (初始 化 矩阵 RAR 和 B)、printMatrix 函数 (输出 一 
个 矩阵 的 值 )、matcleaz 国 数 (清空 矩阵 一 一 将 所 有 的 值 设 置 为 0) Al matmul_add K% 
(计算 两 个 输入 矩阵 的 矩阵 乘积 ， 并 将 结果 加 到 输出 矩阵 上 ) 的 代码 。 这 些 函 数 的 参数 大 多 包 
括 和 矩阵 的 维 数 ， 以 及 一 个 用 于 指示 从 矩阵 一 行 的 起 点 到 下 一 行 的 起 点 的 跨度 ， 像 作用 在 整个 
矩阵 上 一 样 ， 通 过 这 些 参数 ， 我 们 能 够 把 这 些 函 数 应 用 到 子 和 矩阵 上 。 





#include <stdio.h> 
#include <stdlib.h> 
#define N 100 
#define NB 4 


#define blockstart(M,i,j,rows_per_blk,cols_per_blk,stride) \ 
(M + ((i)*(rows_per_blk))*(stride) + (j)*(cols_per_blk)) 


int main(int argc, char *argv[]) { 
/* matriz dimensions */ 
int dimN = N; int dimP = N; int dimM = N; 
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/* block dimensions */ 
int dimNb = dimN/NB; int dimPb = dimP/NB; int dimMb = dimM/NB; 


/* allocate memory for matrices */ 

double *A = malloc(dimN*dimP*sizeof (double)); 
double *B = malloc(dimP*dimM*sizeof (double)); 
double *C = malloc(dimN*dimM*sizeof (double) ) ; 


/* Initialize matrices */ 
initialize(A, B, dimN, dimP, dimM); 
/* Do the matriz multiplication */ 


for (int ib=0; ib < NB; ++ib) { 
for (int jb=0; jb < NB; ++jb) { 
/* find block[ib] [jb] of C */ 
double * blockPtr = blockstart(C, ib, jb, dimNb, dimMb, dimM); 
/* clear block[ib] [jb] of C (set all elements to zero) */ 
matclear(blockPtr, dimNb, dimMb, dimM); 
for (int kb=0; kb < NB; ++kb) { 
/* compute product of block[ib] [kb] of A and 
block[kb][jb] of B and add to block[ib] [jb] of C */ 
matmul add(blockstart(A, ib, kb, dimNb, dimPb, dimP), 
blockstart(B, kb, jb, dimPb, dimMb, dimM), 
blockPtr, dimNb, dimPb, dimMb, dimP, dimM, dimM); 


/* Code to print results not shoum */ 


return 0; 


} 


图 4-17 ( 续 ) 
首先 注意 ， 可 以 重新 排列 循环 ， 而 不 影响 计算 的 结果 ， 如 图 4-18 所 示 。 


/* Declarations, initializations, etc. not shown -- same as 
first version */ 


/* Do the multiply */ 
matclear(C, dimN, dimM, dimM); /* sets all elements to zero */ 
for (int kbz0; kb < NB; ++kb) { 


for (int ib=0; ib < NB; **ib) { 
for (int jb=0; jb « NB; **jb) { 


/* compute product of block([ib][kb] of A and 
block[kb][jb] of B and add to block[ib][jb] of C */ 
matmul add(blockstart(A, ib, kb, dimNb, dimPb, dimP), 
blockstart(B, kb, jb, dimPb, dimMb, dimM), 
blockstart(C, ib, jb, dimNb, dimMb, dimM), 
dimNb, dimPb, dimMb, dimP, dimM, dimM); 


/* Remaining code is the same as for the first version */ 


图 4-18 修订 的 串 行 矩阵 乘法 《没有 给 出 与 图 4-17 中 的 程序 相同 的 部 分 ) 
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通过 变换 ， 我 们 得 到 了 一 个 组 合 了 高 级 串 行 结构 (关于 kb 的 循环 ) 和 循环 结构 (关于 ib 
和 jb 的 嵌 套 循环 ) 的 程序 ， 其 中 对 于 内 部 的 藤 套 循环 ， 可 以 使 用 几何 分 解 模式 将 其 并 行 化 。 

OpenMP 解决 方案 。 可 以 为 一 个 共享 内 存 环境 生成 这 个 程序 的 一 个 并 行 版 本 ,方式 是 利 
用 OpenMP 的 循环 指令 并 行 化 内 部 的 嵌 套 循环 ( 关于 ib 和 /或 jb )。 像 网 格 示例 一 样 ， 保 持 
较 小 的 线程 管理 开销 非常 重要 ， 因 此 parallel 指令 应 当 出 现在 关于 kb 的 循环 之 外 。 应 当 
将 for 指令 放置 在 一 个 内 部 循环 的 前 面 。 这 个 算法 所 带 来 的 问题 和 最 终 的 源 代码 修改 实质 上 
与 网 格 程序 示例 一 致 ， 因 此 这 里 没有 给 出 程序 的 源 代 码 。 

MPI 解决 方案 。 图 4-19 和 图 4-20 中 给 出 了 使 用 MPI 的 矩阵 乘法 程序 的 一 个 并 行 版 本 。 
采用 MPI 的 自然 方法 是 使 用 SPMD 模式 和 几何 分 解 模式 。 我 们 将 使 用 先前 描述 的 矩阵 乘法 
算法 。 


#include <stdio.h> 
#include <stdlib.h> 
#include <string.h> 
#include <math.h> 
#include <mpi.h> 
#define N 100 


#define blockstart(M,i,j,rows_per_blk,cols_per_blk,stride) \ 
(M + ((i)*(rows_per_blk))*(stride) + (j)*(cols_per_blk)) 


int main(int argc, char *argv[]) { 
/* matriz dimensions */ 
int dimN = N; int dimP = N; int dimM = N; 


/* block dimensions */ 
int dimNb, dimPb, dimMb; 


/* matrices */ 
double *A, *B, *C; 


/* buffers for receiving sections of A, B from other processes */ 
double *Abuffer, *Bbuffer; 


int numProcs, myID, myID i, myID_j, NB; 
MPI Status status; 


/* MPI initialization */ 

MPI Init(&argc, argv); 

MPI Comm size (MPI COMM WORLD, &numProcs) ; 
MPI Comm rank(MPI COMM WORLD, &myID); 


/* initialize other variables */ 

NB = (int) sqrt((double) numProcs); 

myID_i = myID / NB; 

myID_j = myID % NB; 

dimNb = dimN/NB; dimPb = dimP/NB; dimMb = dimM/NB; 
A = malloc(dimNb*dimPb*sizeof (double) ) ; 

B = malloc(dimPb*dimMb*sizeof (double) ); 

C = malloc(dimNb*dimMb*sizeof (double) ) ; 

Abuffer = malloc(dimNb*dimPb*sizeof (double) ) ; 
Bbuffer = malloc(dimPb*dimMb*sizeof (double) ) ; 


/* Initialize matrices */ 
initialize(A, B, dimNb, dimPb, dimMb, NB, myID i, myID j); 


/* continued in next figure */ 





图 4-19 使 用 消息 传递 的 并 行 矩 阵 乘法 ( 续 见 图 4-20 ) 
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/* continued from previous figure */ 
/* Do the multiply */ 


matclear(C, dimNb, dimMb, dimMb); 
for (int kb=0; kb < NB; -**kb) 1 


if (myID_j == kb) { 
/* send A to other processes in the same "row" */ 
for (int jb=0; jb < NB; ++jb) { 
if (jb != myID. j) 
MPI Send(A, dimNb*dimPb, MPI DOUBLE, 
myID i*NB + jb, O, MPI.COMM WORLD); 


) 
/* copy A to Abuffer */ 
memcpy(Abuffer, A, dimNb*dimPb*sizeof(double)); 


else { 
MPI_Recv(Abuffer, dimNb*dimPb, MPI DOUBLE, 
myID i*NB + kb, O, MPI.COMM WORLD, &status); 
} 
if (myID_i == kb) ( 
/* send B to other processes in the same "column" */ 
for (int ib=0; ib < NB; ++ib) { 
if (ib != myID i) 
MPI_Send(B, dimPb*dimMb, MPI_DOUBLE, 
ib*NB + myID j, 0, MPI_COMM_WORLD) ; 
} 
/* copy B to Bbuffer */ 
memcpy(Bbuffer, B, dimPb*dimMb*sizeof (double)) ; 


else { 
MPI_Recv(Bbuffer, dimPb*dimMb, MPI_DOUBLE, 
kb*NB + myID_j, 0, MPI_COMM_WORLD, &status) ; 
} 


/* compute product of block[ib] [kb] of A and 
block[kb] [jb] of B and add to block[ib] [jb] of C */ 
matmul_add(Abuffer, Bbuffer, C, 
dimNb, dimPb, dimMb, dinPb, dimMb, dimMb); 
) 


/* Code to print results not shoum */ 


/* Clean up and end */ 
MPI_Finalize(); 
return O0; 





图 4-20 ”使 用 消息 传递 的 并 行 矩 阵 乘法 ( 续 图 4-19) 


3 PIERE CA, BAIC) 被 分 解 为 多 个 块 。 计 算 中 所 需要 的 UE (在 MPI 中 是 指 进程 ) 被 
组 织 为 一 个 网 格 ， 这 样 矩 阵 块 的 索引 可 以 映射 到 进程 的 坐标 上 《〈 即 矩阵 块 (ij ) 与 第 i 行 、 
第 j 列 的 进程 相 联系 ) 为 简化 起 见 ， 假 设 进程 的 数目 numProcs 是 一 个 非常 完美 的 方形 ， 
它 的 平方 能 够 被 矩阵 的 秩 (N ) 整除 。 
尽管 该 算法 一 开始 看 可 能 比较 复杂 ， 但 整体 思想 是 简单 易 懂 的 。 整 个 计算 过 程 包含 多 个 
3: 阶段 (关于 kb 的 循环 ). 在 每 一 个 阶段 ， 行 索引 号 等 于 kb 的 进程 将 它 的 A 块 发 送 到 该 行 
， | 所 有 进程 上 。 同 样 地 ， 索 引号 等 于 kb 的 进程 将 它 的 B 块 发 送 到 该 列 的 所 有 进程 上 。 通 信 操 
96! 作 完 成 后 ， 每 一 个 进程 将 它 所 接收 到 的 &A 块 和 B 块 相 乘 ， 并 将 结果 累加 到 Cc 块 上 。NB 个 阶 
段 之 后 ， 每 一 个 进程 上 的 c 矩阵 块 组 成 最 终 的 结果 。 
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当 使 用 MPI 时 ， 这 些 类 型 的 算法 非常 常见 。 理 解 这 些 算法 的 关键 是 从 以 下 几 个 方面 进行 
考虑 : 进程 的 集合 、 每 个 进程 所 拥有 的 数据 ， 以 及 随 着 计算 的 展开 数据 如 何在 相 邻 进程 间 流 
动 。5.4 节 、5.10 节 和 附录 B 将 重新 回顾 这 些 问 题 。 

人 们 已 经 对 并 行 矩 阵 乘法 和 相关 的 线性 代数 算法 开展 了 大 量 的 研究 。 在 [FJL 88] 上 给 出 
了 一 种 更 复杂 的 方法 ， 在 该 方法 中 ，&R 块 和 B 块 在 进程 间 传 播 ， 仅 当 某 个 进程 需要 该 块 时 ， 
才 到 达 该 进程 。 

知名 应 用 。 大 多 数 涉 及 微分 方程 的 解 的 问题 都 使 用 几何 分 解 模式 。 采 用 有 限 差分 法 直 
接 映 射 到 这 个 模式 。 使 用 这 种 模式 的 男 一 类 问题 来 源 于 计算 线性 代数 。ScaLAPACK [Sca, 
BCC'97] 库 中 的 并 行 函 数 大 多 数 基于 这 种 模式 。 这 两 类 问题 涵盖 了 科学 计算 中 的 大 部 分 并 行 
应 用 程序 。 

6. 相关 模式 

如 果 每 一 个 块 的 更 新 可 以 不 使 用 其 他 块 中 的 数据 来 完成 ， 则 这 种 模式 简化 为 4.4 节 描 述 
的 易 并 行 算法 。 作 为 这 种 计算 的 一 个 示例 ， 考 虑 一 个 2D FFT ( 快速 傅 里 叶 变换 ) 的 计算 ， 首 
先 对 矩阵 的 每 一 行 应 用 一 次 1D FFT， 再 对 矩阵 的 每 一 列 应 用 一 次 1D FFT。 尽 管 这 个 分 解 
看 上 去 好 像 是 基于 数据 的 ( 基于 行 或 基于 列 )， 但 事实 上 ， 计 算 由 任务 并 行 模式 的 两 个 实例 
组 成 。 

如 果 待 分 配 的 数据 结构 本 质 上 是 递归 的 ， 则 可 以 应 用 分 治 模式 或 递归 数据 模式 。 


4.7 ”递归 数据 模式 


1. 问题 

假设 问题 涉及 对 递归 数据 结构 的 操作 ( 如 列表 、 树 或 图 ) 的 操作 ， 这 些 操作 看 上 去 好 像 
需要 串 行 处 理 。 如 何 能 够 对 这 些 数 据 结构 并 行 地 执行 相关 操作 ? 

< C7 

某 些 问题 具有 递归 数据 结构 ， 很 自然 地 使 用 4.5 节 描述 的 分 治 策略 来 利用 它们 固有 的 洪 
在 并 发 性 。 但 是 ， 对 这 些 数 据 结构 的 其 他 操作 看 上 去 似乎 具有 很 少 的 潜在 并 发 性 ， 因 为 表面 
上 求解 这 些 问题 的 仅 有 方式 是 : 沿 着 数据 结构 移动 ， 在 移动 到 下 一 个 元 素 之 前 ， 计 算 当 前 元 
素 的 结果 。 但 是 ， 有 时 候 可 以 重 塑 操作 ， 使 得 程序 能 够 对 数据 结构 的 所 有 元 素 并 发 地 操作 。 

[J92] 中 的 一 个 例子 演示 了 这 种 情形 : 假设 具有 一 个 有 根 有 向 树 (定义 方式 为 ， 对 于 每 一 
个 节点 ， 都 有 它 的 直接 祖先 ， 而 根 节点 的 祖先 为 它 自己 ) 的 森林 ， 并 且 对 于 森林 中 的 每 一 个 
节点 ， 我 们 想 计算 包含 该 节点 的 树 的 根 。 在 一 个 串 行程 序 中 ， 为 了 完成 该 任务 ， 将 使 用 深度 
优先 法 搜索 每 一 棵 树 ， 从 树 的 根 节点 搜索 到 它 的 叶子 节点 。 当 访问 每 一 个 节点 时 ,我 们 具有 
对 应 根 节点 的 信息 。 对 于 一 个 具有 NN 个 节点 的 森林 ， 程 序 的 总 运行 时 间 是 O(N)。 虽 然 存 在 一 
些 潜在 的 并 发 性 ( 对 子 树 进行 并 发 操作 )， 但 没有 一 种 显而易见 的 方法 对 所 有 元 素 进行 并 发 操 
作 ， 因 为 我 们 无 法 在 获得 某 个 特定 节点 父 节 点 根 的 情况 下 ， 获 知 该 特定 节点 的 根 。 

但 是 ， 重 新 思考 该 问题 将 发 现 其 他 的 并 发 性 : 我 们 首先 为 每 一 个 节点 定义 一 个 “后 继 ”， 
初始 时 后 继 是 该 节点 的 父 节点 ， 最 终 将 是 该 节点 所 属 的 树 的 根 节点 。 然 后 我 们 计算 每 一 个 节 


点 的 “后 继 的 后 继 ”。 对 于 到 根 节点 只 有 一 个 “ 跃 距 ” 的 节点 ,计算 不 改变 该 节点 后 继 的 值 


( 因为 根 节 点 的 父 节 点 是 它 自 己 )。 对 于 到 根 节点 至 少 有 两 个 “ 跃 路” 的 节点 ， 计 算 使 得 该 节 
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点 的 后 继 成 为 它 的 父 节点 的 父 节点 。 我 们 重复 这 个 计算 ,直到 它 收 敛 ( 即 某 一 步 所 产生 的 值 
与 它 前 面 一 步 所 产生 的 值 相同 )。 在 该 点 处 ， 每 一 个 节点 的 后 继 都 是 目标 值 。 图 4-21 演示 了 
需要 3 步 获 得 收敛 的 示例 。 在 每 一 步 ， 我 们 可 以 并 发 地 对 树 中 所 有 的 入 个 节点 进行 操作 ， 并 
且 该 算法 最 多 在 logN 步 获 得 收敛 。 





图 4-21 在 一 个 森林 中 寻找 根 节点 ( 实 线 表示 节点 间 的 初始 父子 关系 ， 虚 线 表 示 从 节点 指向 其 后 继 ) 


我 们 所 做 的 是 将 初始 串 行 计算 ( 为 距离 跟 节 点 一 个 “ 跃 距 ” 的 节点 找到 根 ， 然 后 为 距离 
根 节点 两 个 “ 跃 距 ” 的 节点 找到 根 ， 等 等 ) 转换 为 另外 一 个 计算 ， 该 计算 为 每 一 个 节点 计算 
部 分 结果 (后继 )， 然 后 重复 地 组 合 这 些 部 分 结果 ， 首 先 组 合 相 邻 结果 ， 然 后 组 合 距 离 两 个 噬 
距 的 节点 的 部 分 结果 ， 然 后 组 合 距 离 4 个 跃 距 的 节点 的 部 分 结果 ， 以 此 类 推 。 这 种 策略 可 以 
应 用 到 其 他 乍 一 看 好 像 必须 使 用 串 行 方法 的 问题 中 ， 在 本 节 的 示例 部 分 中 提供 了 其 他 一 些 示 
例 。 这 种 技术 有 时 称 为 指针 跳 转 (pointer jumping ) 或 者 双 递 归 (recursive doubling )。 
这 种 新 构造 的 算法 一 个 令 人 感 兴趣 的 方面 是 ， 新 的 算法 包含 的 工作 比 初 始 串 行 算法 多 得 
多 一 一 O(NlogN) 比 OOM)， 但 新 构造 的 算法 包含 潜在 的 并 发 性 ， 如 果 彻 底 地 挖掘 ， 则 总 运行 时 
间 将 减少 为 O(logN)( 而 初始 算法 为 ON) )。 基 于 这 种 模式 的 大 多 数 策 略 和 算法 都 采取 了 相似 
的 折 囊 策略 ， 即 以 总 工作 量 的 增加 来 降低 总 执行 时 间 的 减少 。 还 要 注意 的 是 ， 可 挖掘 的 并 发 
性 可 以 非常 细 粒 度 ( 如 前 面 的 示例 所 示 )， 这 可 能 会 限制 该 模式 产生 一 个 高 效 的 算法 。 虽 然 如 
此 ， 但 是 这 种 模式 仍然 可 以 作为 一 个 启发， 用 于 考虑 对 那些 第 一 眼看 上 去 似乎 必须 使 用 串 行 
方法 求解 的 问题 的 并 行 化 。 
3. 面临 的 问题 | 
e 重新 构造 问题 ， 以 便 将 递归 数据 结构 的 一 种 固有 串 行 遍历 转换 为 另 一 种 允许 所 有 元 素 
并 行 操作 的 遍历 ， 这 样 做 将 增加 计算 的 总 工作 量 。 必 须 平衡 这 种 情况 ， 以 提高 并 发 运 
行 时 的 性 能 。 
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e 这 种 重新 构造 可 能 会 很 困难 ( 因为 这 需要 从 一 个 不 寻常 的 角度 观察 初始 问题 )， 并 且 
可 能 会 得 到 一 个 难于 理解 和 维护 的 设计 。 
e 这 种 模式 所 提供 的 并 发 性 是 否 能 高 效 地 挖掘 以 提高 性 能 ， 依 赖 于 在 目标 并 行 计算 机 系 
统 中 ， 操 作 的 计算 开销 和 与 计算 相关 的 通信 开销 。 

4. 解决 方案 

应 用 这 种 模式 最 具有 挑战 性 的 部 分 是 ， 将 对 一 个 递归 数据 结构 的 操作 重新 构造 为 一 种 能 
够 提供 额外 的 并 发 性 的 形式 。 一 般 的 指导 原则 难以 完成 此 类 构造 ,但 是 根据 这 种 模式 提供 的 
示例 ， 其 关键 思想 应 当 是 清晰 的 。 

在 并 发 性 已 经 揭示 后 ， 这 种 并 发 性 不 一 定 总 是 能 够 高 效 地 挖掘 ， 并 加 速 程序 的 求解 速度 。 
这 依赖 于 多 种 因素 ， 主 要 包括 更 新 递归 数据 结构 的 每 一 个 元 素 所 包含 的 工作 量 和 目标 并 行 计 
算 机 的 特征 。 

数据 分 解 。 在 这 种 模式 中 ， 递 归 数 据 结构 被 彻底 地 分 解 为 独立 的 元 素 ， 每 一 个 元 素 被 分 
配给 一 个 独立 的 UE。 理 想 情 况 下 ， 每 一 个 UE 将 被 分 配给 一 个 不 同 的 PE， 但 将 多 个 UE 分 配 
给 一 个 PE 是 也 可 能 的 。 但 是 ， 如 果 每 一 个 PE 上 UE 的 数目 太 大 ， 则 整体 性 能 会 较 差 ， 因 为 
没有 足够 的 并 发 性 去 抵消 总 的 工作 量 的 增加 。 

例如 ， 考 虑 前 面 描述 的 根 查 找 的 问题 。 我 们 将 忽略 计算 中 的 开销 。 如 果 N=1024, 1 是 对 
一 个 数据 元 素 执行 一 步 的 时 间 ， 则 串 行 算法 的 运行 时 间 大 约 是 1024t。 如 果 每 个 UE 被 分 配给 
它 自己 的 PE， 则 并 行 算法 的 运行 时 间 约 为 logN)t 或 10t。 但 是 ， 如 果 并 行 算法 只 能 利用 两 个 
PE， 则 每 个 元 素 的 NlogN 或 1024 步 计 算 必须 在 两 个 PE 上 执行 ， 则 执行 时 间 至 少 为 51201， 
远大 于 串 行 算 法 的 时 间 。 

结构 。 应 用 这 种 模式 的 典型 结果 是 一 个 算法 ， 该 算法 的 高 层 结构 是 一 个 循环 形式 的 串 行 
组 合 ， 其 中 循环 的 每 一 次 迭代 可 以 描述 为 “对 递归 数据 结构 的 所 有 (或 选择 的 ) 元 素 同 时 地 
执行 这 种 操作 ”。 典 型 操作 包括 “使 用 每 一 个 元 素 的 后 继 的 后 继 替 换 它 的 后 继 ”( 参考 本 节 前 
面 的 示例 ) 和 “使 用 当前 元 素 的 值 与 前 趋 元 素 的 值 来 替换 当前 元 素 的 值 ”。 

同步 。 符 合 这 种 模式 的 算法 被 描述 为 同时 更 新 数据 结构 的 所 有 元 素 。 这 些 目标 平台 ( 例 
如 ， 以 早期 Connection Machine 机 器 为 例 的 SIMD 体系 结构 ) 通过 将 每 一 个 数据 元 素 分 配给 
一 个 独立 的 PE (可 能 是 一 个 逻辑 PE )， 并 在 每 一 个 PE 上 以 一 种 步调 一 致 的 模式 执行 指令 ， 
来 完成 该 工作 。 文 持 编程 环境 ( 例如 ， 高 性 能 的 Fortran [HPF97] ) 的 MIMD 平台 也 能 提供 相 
似 语义 。 

如 果 目 标 平台 不 隐 式 提供 所 需要 同步 ， 则 用 户 需 要 显 式 地 引入 同步 。 例 如 ， 如 果 在 一 个 
循环 迭代 期 间 执行 的 操作 包含 如 下 赋值 语句 : 


next[k] = next[next[k]] 


则 并 行 算法 必须 确保 在 其 他 需要 使 用 next[k] 的 值 用 于 计算 的 UE 接收 到 该 值 之 前 ， 
next[k] 未 更 新 。 一 种 常用 的 技术 是 引入 一 个 新 变量 next2。 然 后 偶数 次 迭代 读 取 next 
值 ， 但 更 新 next2， 而 奇数 次 读 取 next2 的 值 ， 并 更 新 next。 通 过 在 每 一 对 连续 的 迭代 之 
间 放 置 一 个 栅栏 ( 如 第 6 章 所 描述 的 一 样 )， 来 完成 所 必需 的 同步 。 注 意 ， 这 实际 上 增加 了 与 
并 行 算 法 相关 的 额外 开销 ， 它 可 能 会 抵消 额外 的 并 发 性 所 带 来 的 加 速 比 。 如 果 每 一 个 元 素 所 
需要 的 计算 都 很 少 (许多 示例 都 是 这 样 的 )， 这 很 可 能 成 为 一 个 因素 。 
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如 果 PE 的 数目 比 数据 元 素 少 ， 则 程序 设计 者 必须 确定 是 否 将 每 一 个 数据 元 素 分 配给 一 
个 UE， 并 将 多 个 UE 分 配给 每 一 个 PE (从 而 仿真 这 些 并 行 性 )， 或 者 是 否 将 多 个 数据 元 素 分 
配给 每 一 个 UE， 然 后 串 行 地 执行 它们 。 后 者 较 复 杂 (需要 一 个 与 前 面 描述 的 相似 方法 ， 其 中 
同步 更 新 所 涉及 的 变量 被 复制 )， 但 效率 较 高 。 

5. 示例 

链表 的 部 分 和 。 这 个 示例 源 于 Hilis 和 Steele[HS86]， 问 题 是 计算 一 个 链表 中 所 有 元 
素 的 前 级 和 (prefix sum )， 其 中 链表 中 的 每 一 个 元 素 包含 一 个 值 x。 换 名 话说， 在 计算 完 
成 后 ， 第 一 个 元 素 将 包含 x， 第 二 个 元 素 将 包含 xotx!:， 第 三 个 元 素 将 包含 xotxi+x;,， 依 次 
类 推 。 | 

图 4-22 给 出 了 这 个 基本 算法 的 伪 代 码 。 图 423 给 出 了 这 个 计算 的 演化 过 程 ， 其 中 xx; 是 
列表 中 第 Ci-1) 个 元 素 的 初始 值 。 


for all k in parallel 
{ 


temp[k] = next [k] ; 
while temp[k] != null 
{ 


x[temp[k]] = x(k] + x(temp[k]1; 
temp[k] = temp[temp[k]]; 





图 4-22 计算 链表 的 部 分 和 的 伪 码 


X2 X3 X4 x5 x7 
* o o LI s C 


sum(x0:x0 


CL 





图 4-23 ”计算 链表 的 部 分 和 的 步骤 ( 直线 箭头 表示 元 素 间 的 链接 ， 曲 线 箭 头 表 示 加 法 ) 


通过 将 加 法 蔡 换 为 相关 运算 符 ， 可 以 将 这 个 示例 进行 归纳 ， 该 示例 有 时 也 称 为 前 组 扫描 。 
它 可 以 被 使 用 在 多 种 情形 中 ， 包 括 求解 各 种 类 型 的 递 推 关 系 。 

知名 应 用 。 基 于 这 种 模式 开发 的 算法 是 一 种 数据 并 行 算法 。 它 们 广泛 地 应 用 在 SPMD 平 
台中 ， 是 对 高 性 能 Fortran [HPF97] 等 语言 的 一 种 程度 较 小 的 扩展 。 这 些 平台 支持 这 种 模式 所 
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需要 的 细 粒 度 并 发 性 ， 并 且 自 动 处 理 同步 ， 因 为 在 所 有 的 处 理 器 上 每 一 个 计算 步骤 ( 物理 上 
的 或 逻辑 上 的 ) 都 是 步调 一 致 地 发 生 的 。Hillis 和 Steele[HS86] 描述 了 几 种 关于 这 种 模式 的 有 
趣 应 用 ， 包 括 寻 找 一 个 链表 的 尾部 ， 计 算 一 个 链表 的 所 有 部 分 和 ， 二 维 图 像 中 的 区 域 标注 和 
分 析 。 

在 组 合 优化 中 ， 遍 历 一 个 图 或 树 中 所 有 节点 的 问题 也 可 以 利用 这 种 模式 来 求解 ,方法 是 
先 通过 寻找 关于 节点 的 一 种 排序 来 创建 一 个 列表 。 欧 拉 环 游 和 耳 打 分解 ( ear decomposition ) 
[EG88] 是 计算 这 种 排序 的 著名 技术 。 

JáJá [J92] 也 描述 了 这 种 模式 的 几 种 应 用 : 寻找 一 个 由 有 根 有 疝 树 组 成 的 森林 中 树 的 根 ， 
计算 一 个 有 根 有 癌 树 中 集合 的 部 分 和 (与 前 面 链 表 的 示例 相似 )， 以 及 计算 列表 的 范围 ( 确定 
列表 的 每 一 个 元 素 与 列表 的 起 始点 /终点 的 距离 )。 

6. 相关 模式 

就 实际 的 并 发 性 而 言 ， 这 种 模式 与 几何 分 解 模 式 非常 相似 ,不同 点 在 于 这 种 模式 中 的 数 
据 结构 是 递归 的 〈 至 少 在 概念 上 是 这 样 的 )， 并 且 这 些 元 素 可 以 同时 操作 。 这 种 模式 的 不 同 点 
在 于 强调 重新 考虑 问题 来 挖掘 细 粒 度 并 行 性 。 


4.8 流水 线 模式 


1. 问题 

假设 整个 计算 涉及 对 很 多 数据 集 进 行 计 算 ， 其 中 计算 可 看 作 是 对 通过 一 个 步骤 序列 的 数 
据 流 的 处 理 。 如 何 挖掘 这 种 潜在 的 并 发 性 呢 ? 

2. 背景 

流水 线 与 这 种 模式 非常 类 似 。 假 设 我 们 想 制造 大 量 的 汽车 。 制 造 过 程 可 以 分 解 为 一 个 操 
作 序 列 ， 其 中 的 每 一 步 操 作 都 为 汽车 添加 某 个 部 件 ， 例 如 ， 发 动机 或 者 挡 风 玻璃 等 。 流 水 线 
为 每 一 个 工人 分 配 一 个 部 件 。 当 每 一 辆 汽车 在 流水 线 中 移动 时 ， 每 一 个 工人 对 连续 流动 的 汽 
车 安装 同样 的 部 件 。 在 流水 线 充满 之 后 〈 并 且 直 到 它 开 始 清空 为 止 )， 所 有 工人 可 以 同时 保持 
繁忙 ， 所 有 人 都 对 其 位 置 处 的 汽车 并 发 地 执行 他 们 的 操作 。 

可 以 在 计算 机 系统 的 多 个 粒度 层次 发 现 流水 线 的 示例 ， 包 括 CPU 便 件 本 身 。 

e 现代 CPU 中 的 指令 流水 线 。 指 令 执 行 的 所 有 阶段 ( 取 指 、 解 码 、 执 行 等 ) 以 流水 线 
方式 完成 ; 当 解 码 一 条 指令 时 ， 它 的 前 驱 正 在 执行 指令 ， 它 的 后 继 正在 被 取 指令 。 
向 量 处 理 ( 循环 级 流水 线 )。 在 某 些 超级 计算 机 中 ， 专 门 的 硬件 使 得 对 向 量 的 操作 能 
够 以 流水 线 的 模式 完成 。 典 型 情况 下 ， 编 译 器 能 够 识别 出 循环 ， 例 如 : 


for(i = 0; i < N; i++) { ali] = bli) + cli]; } 


该 循环 可 以 向 量化 ， 且 专门 的 硬件 能 够 实现 它 。 在 一 个 短暂 的 启动 时 间 之 后 ， 每 一 个 
时 钟 周期 将 产生 一 个 a[i] 值 。 

算法 级 流水 线 。 许 多 算法 可 以 表示 为 递归 关系 ， 并 使 用 流水 线 或 者 较 高 维 概括 〈 脉动 
陈列 ) 来 实现 。 考 虑 性 能 原因 ， 这 通常 需要 开发 专门 的 硬件 来 实现 。 

信号 处 理 。 实 时 传感器 数据 流通 过 一 个 过 滤器 序列 可 以 被 模拟 为 一 个 流水 线 ， 其 中 每 
一 个 过 滤器 对 应 于 流水 线 的 一 个 阶段 。 
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e 图。 通过 对 图 像 序列 中 的 每 一 个 图 像 应 用 相同 的 操作 序列 图 像 ， 序 列 的 处 理 可 以 被 模 
型 化 为 一 个 流水 线 ， 其 中 每 一 个 操作 对 应 于 一 个 流水 线 阶段 。 某 些 阶 段 可 以 使 用 专门 
的 硬件 实现 。 

e UNIX 中 的 shell 程序 。 例 如 ，shell 命令 


cat sampleFile | grep "word" | we 


创建 了 一 个 三 阶段 的 流水 线 ， 其 中 每 个 命令 (cat. grep 和 wc ) 对 应 一 个 进程 。 

这 些 示 例 和 工业 流水 线 通 常 具 有 几 个 方面 的 共同 点 。 对 一 个 关于 数据 元 素 序 列 〈 在 工业 
流水 线 中 ， 指 的 是 汽车 ) 中 的 每 一 个 元 素 都 应 用 一 个 操作 序列 去 处 理 (在 工业 流水 线 情形 中 ， 
操作 是 指 安装 发 动机 、 挡 风 玻 璃 等 )。 尽 管 对 单个 数据 元 素 的 操作 可 能 有 顺序 的 约束 ( 例如 ， 
在 安装 引擎 罩 之 前 ， 需 要 先 安装 发 电机 ), 但 是 可 以 同时 对 不 同 的 数据 元 素 执 行 不 同 的 操作 
(例如 ， 可 以 对 一 辆 汽车 安装 发 电机 ， 而 同时 对 男 一 辆 汽车 安装 引擎 单 )。 

同时 对 不 同 的 数据 元 素 执 行 不 同 操 作 的 能 力 是 这 种 模式 所 挖 据 的 潜在 并 发 性 。 根 据 第 3 
章 描述 的 内 容 ， 每 个 任务 由 对 一 个 数据 元 素 ( 类 似 于 一 个 工业 流水 线 工 人 安装 一 个 部 件 ) E 
复 地 应 用 一 个 操作 组 成 ， 任 务 间 的 依赖 性 是 强制 某 种 顺序 的 顺序 约束 ， 必 须 采 用 该 顺序 对 每 
一 个 数据 元 素 执行 操作 ( 比如 ， 在 安装 引擎 日 之 前 ， 必 须 先 安装 好 引擎 )。 

3. 面临 的 问题 

e 一 个 优秀 的 解决 方法 应 当 尽 可 能 简单 地 表示 顺序 约束 。 在 问题 中 ， 顺 序 约束 是 简单 并 

规范 的 ， 且 能 够 通过 流 过 流水 线 的 数据 流 来 表示 。 

e 目标 平台 包含 某 些 专用 人 硬件， 这 些 硬件 执行 一 些 所 期 望 的 操作 。 

e 在 某 些 应 用 中 ， 期 望 将 来 能 够 对 流水 线 的 阶段 进行 添加 、 修 改 或 重新 排序 。 

e 在 某 些 应 用 中 ， 输 入 序列 中 的 临时 条 目 可 以 包含 一 些 错误 来 防止 元 素 的 处 理 。 

4. 解决 方案 

这 种 模式 的 关键 思想 源 于 工业 流水 线 : 通过 将 每 一 个 操作 ( 流水线 的 阶段 ) 分 配给 一 
个 不 同 的 工人 ,并 且 让 他 们 同时 工作 ， 随 着 元 素 操 作 完 成 ， 数 据 元 素 从 一 个 工人 处 传递 到 下 
一 个 工人 处 ， 从 而 挖掘 潜在 的 并 发 性 。 在 并 行 编程 方面 ， 思 想 是 : 将 每 一 个 任务 ( 流水线 的 
阶段 ) 分 配给 一 个 UE， 并 提供 一 种 机 制 ， 使 得 流水 线 中 的 每 个 阶段 都 可 以 将 数据 元 素 发 送 
到 下 一 个 阶段 。 这 种 策略 可 能 是 处 理 这 种 类 型 的 顺序 约束 的 最 简单 方式 。 通 过 将 流水 线 的 阶 
段 合理 地 映射 到 PE 上 ， 该 策略 使 得 应 用 程序 能 够 充分 利用 专用 硬件 的 优点 ， 并 提供 合理 的 
错误 处 理 机 制 ， 后 面 将 描述 这 一 点 。 该 策略 也 可 能 产生 一 种 模块 化 设计 ， 可 以 在 以 后 扩展 或 
修改 。 

在 进一步 介绍 之 前 ， 演 示 流 水 线 应 该 如 何 操作 是 有 益 的 。C; 表示 对 数据 元 素 i 的 多 步 操 
E.s Ci) 是 该 计算 的 第 j 步 。 将 计算 步骤 映射 到 流水 线 的 阶段 ， 使 得 流水 线 的 每 一 个 阶段 计 
算 一 个 步骤 。 初 始 时 ， 流 水 线 的 第 一 个 阶段 执行 C1(1)。 完 成 该 步 后 ， 流 水 线 的 第 二 个 阶段 接 
收 第 一 个 数据 项 并 计算 CI(2)， 而 流水 线 的 第 一 阶段 计算 第 二 个 数据 项 的 第 一 步 Cx(1)。 接 着 ， 
流水 线 的 第 三 个 阶段 计算 C1(3)， 而 第 二 个 阶段 计算 C,(2)， 第 一 个 阶段 计算 C3(1)。 图 4-24 演 
示 了 由 四 个 阶段 组 成 的 流水 线 是 如 何 工作 的 。 注 意 ， 初 始 时 并 发 性 是 受 限 的 ， 并 且 某 些 资源 
处 于 闲置 状态 ， 直 到 有 用 的 工作 占 满 流水 线 的 各 个 阶段 。 这 称 为 流水 线 的 填充 。 在 计算 的 末 
E (流水线 的 排 空 )， 当 最 后 一 项 元 素 在 流水 线 中 处 理 时 ， 又 存在 一 个 受 限 的 并 发 性 和 一 些 空 
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闲 的 资源 。 我 们 希望 花费 在 填充 和 排 空 流 水 线 上 的 时 间 远 小 于 计算 的 总 时 间 。 如 有 果 流 水 线 的 
阶段 数目 小 于 所 要 处 理 的 元 素 的 数目 ， 则 将 满足 我 们 所 期 望 的 情形 。 另 外 ， 如 果 流 水 线 每 一 
个 阶段 处 理 一 个 数据 元 素 所 花费 的 时 间 近 似 相 等 ， 则 整体 吞吐 量 /效率 将 最 大 化 。 


时 间 
流水 线 阶段 1 [| [e] [e] [e] [e] [e] 
流水 线 阶段 [cj [e] [e] [e] [e] la 
流水 线 阶段 3 
流水 线 阶段 


图 4-24 一 个 流水 线 的 操作 (流水线 的 每 个 阶段 i 完成 第 i 个 计算 步 又 ) 


这 种 思想 可 以 扩展 到 比 完全 线性 的 流水 线 更 通用 的 情形 。 例 如 ， 图 4-25 演示 了 两 种 流水 
线 ， 每 一 种 流水 线 包含 4 个 阶段 。 在 第 二 个 流水 线 中 ， 第 三 个 阶段 包含 两 种 操作 ， 这 两 种 操 
作 可 以 并 发 地 执行 。 





线性 流水 线 





非 线性 流水 线 
图 4-25 ”流水线 示例 


定义 流水 线 阶 段 。 通 第 每 一 个 流水 线 阶段 对 应 一 个 任务 。 图 4-26 给 出 了 每 个 阶段 的 基本 


initialize 
while (more data) 
{ 


receive data element from previous stage 


perform operation on data element 
send data element to next stage 
} 


finalize 





图 4-26 流水线 阶段 的 基本 结构 


如 有 果 将 要 处 理 的 数据 元 素 的 数目 能 够 提前 知道 ， 则 每 一 个 阶段 能 够 统计 出 元 素 的 数目 ， 
并 且 在 处 理 完 这 些 元 素 后 ， 该 阶段 终止 。 另 外 ， 可 以 在 流水 线 中 发 送 一 个 表示 终止 的 标识 。 
此 时 需要 考虑 影响 性 能 的 几 个 因素 。 
。 在 整个 流水 线 中 ， 并 发 量 受 限 于 阶段 的 数目 。 这 样 ， 阶 段 的 数目 越 多 将 带 来 更 多 的 并 
发 性 。 但 是 ， 数 据 序列 必须 在 阶段 之 间 传 递 ， 这 给 计算 引入 了 额外 的 开销 。 这 样 ， 我 
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们 需要 将 计算 组 织 为 几 个 阶段 ， 每 一 个 阶段 所 完成 的 工作 量 比 通信 开销 大 。 工 作 量 的 
大 小 高 度 依赖 于 特定 的 体系 结构 。 专 用 硬件 ( 如 向 量 处 理 器 ) 允许 非常 细 粒 度 的 并 
行 性 。 

e 如 果 通 过 流水 线 的 各 个 阶段 所 执行 的 操作 都 具有 相等 的 计算 密度 ， 则 这 种 模式 将 能 够 
工作 得 更 好 。 如 果 流 水 线 的 各 个 阶段 的 计算 工作 量 差 异 较 大 ， 则 最 慢 的 阶段 将 是 总 否 
吐 量 的 瓶颈 。 

e 如 果 填 充 和 排 空 流水 线 所 需要 的 时 间 相 对 于 整体 运行 时 间 较 小 ， 则 这 种 模式 能 够 工作 
得 更 好 。 阶 段 数目 对 时 间 有 影响 ( 阶段 数 越 多 ， 意 味 着 越 多 的 填充 / 排 空 时 间 )。 

因此 ， 此 时 应 当 考 虑 是 否 应 该 修改 初始 的 任务 分 解 模式 ， 可 以 将 多 个 负载 较 轻 的 相 邻 流 
水 线 阶 段 组 合 为 一 个 阶段 ， 或 将 某 个 负载 较 重 的 阶段 分 解 为 多 个 阶段 。 

也 值得 考虑 使 用 其 他 算法 结构 模式 将 一 个 负载 较 重 的 阶段 并 行 化 。 例 如 ， 如 果 流 水 线 正 
在 处 理 图 像 序列 ， 通 常 可 以 采用 任务 并 行 模式 将 每 一 个 阶段 并 行 化 。 

构造 计算 。 我 们 也 需要 一 种 方法 来 构造 整体 的 计算 。 一 种 可 行 的 方式 是 使 用 SPMD 模式 
( 见 第 5 章 )， 并 使 用 每 一 条 UE 的 了 DD 来 选择 一 条 case MK switch 语句 中 的 某 一 项 ， 其 中 每 个 
case 对 应 于 流水 线 的 一 个 阶段 。 

为 了 提高 模块 性 ， 可 以 开发 面向 对 象 的 框架 ， 使 得 流水 线 阶段 可 以 使 用 对 象 或 过 程 来 表 
达 ， 这 些 对 象 或 过 程 能 够 很 容易 地 “插入 ”流水 线 中 。 使 用 标准 的 OOP 技术 构造 这 样 的 框架 
并 不 困难 ， 其 中 几 种 技术 的 产品 可 以 购买 ， 或 者 免费 获得 。 

描述 流水 线 元 素 间 的 数据 流 。 流 水 线 元 素 间 的 数据 流 如 何 表示 将 依赖 于 目标 平台 。 

在 一 个 消息 传递 环境 中 ， 最 常见 的 方式 是 为 每 一 个 操作 ( 流水 线 的 阶段 ) 分 配 一 个 进程 ， 
并 将 流水 线 连续 阶段 间 的 每 一 个 连接 实现 为 对 应 进程 间 的 一 个 消息 序列 。 因 为 各 个 阶段 很 难 
很 好 地 同步 ， 并 且 不 同 阶段 所 处 理 的 工作 量 总 是 各 不 相同 ， 所 以 流水 线 阶 段 间 的 数据 流通 常 
必须 缓冲 和 排序 。 大 多 数 消息 传递 环境 (如 MPI) 很 容易 实现 这 种 需求 。 如 果 发 送 个 别 消 息 
的 开销 较 高 ， 则 应 当 考 虑 在 每 条 消息 中 发 送 多 个 数据 元 素 ， 该 方法 以 增加 填充 流水 线 时 间 为 
代价 ， 降 低 了 总 通信 开销 。 

如 果 一 个 消息 传递 编程 环境 不 能 很 好 地 适合 目标 平台 ， 则 可 以 显 式 地 使 用 缓冲 通道 连接 
流水 线 的 各 个 阶段 。 该 缓冲 通道 可 以 由 发 送 任务 和 接收 任务 之 间 所 共享 的 队列 来 实现 ， 该 队 
列 使 用 共享 队列 模式 。 

如 果 流 水 线 的 各 个 阶段 分 别 实现 为 并 行程 序 ， 则 可 能 需要 更 复杂 的 方法 ， 特 别 是 如 果 需 
要 在 各 阶段 之 间 执 行 某 种 形式 的 数据 再 分 配 。 例 如 ， 如 果 数 据 需要 在 不 同 的 维 中 分 解 ， 或 者 
在 相同 维 中 分 解 为 不 同 数目 的 子 集 ， 则 将 出 现 这 种 情形 。 例 如 ， 一 个 应 用 程序 的 某 一 个 阶段 
中 的 每 一 个 数据 元 素 被 分 解 为 3 个 子 集 ， 而 另 一 个 阶段 中 的 每 一 个 数据 元 素 被 分 解 为 4 个 子 
集 。 处 理 这 种 情形 的 最 简单 方式 是 聚合 和 分 解 阶 段 间 的 数据 元 素 。 一 种 方法 是 在 每 一 个 阶段 
只 有 一 个 任务 与 其 他 阶段 的 任务 通信 ， 然 后 这 个 任务 将 在 它 的 阶段 中 负责 与 其 他 任务 的 交互 ， 
以 分 配 输入 数据 元 素 和 收集 输出 数据 元 素 。 另 外 一 种 方法 是 引入 额外 的 流水 线 阶 段 来 执行 聚 
合 或 分 解 操作 。 然 而 ， 这 些 方法 都 涉及 大 量 的 通信 。 最 好 是 在 较 早 的 阶段 中 能 够 明确 它 的 后 
继 的 需求 ， 并 与 每 一 个 接收 它 的 部 分 数据 的 任务 直接 通信 ， 而 不 是 在 一 个 阶段 聚合 数据 ， 然 
后 在 另外 一 个 阶段 分 解数 据 。 这 种 方法 以 降低 简单 性 、 模 块 性 和 灵活 性 为 代价 ， 来 提高 性 能 。 

与 传统 方法 不 同 ， 运 行 在 工作 站 集群 上 的 网 络 文件 系统 已 经 用 于 流水 线 阶 段 间 的 通信 。 
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数据 被 某 个 阶段 写 到 一 个 文件 中 ， 并 被 它 的 后 继 阶段 读 取 。 网 络 文件 系统 通常 都 比较 成 熟 ， 
且 经 过 很 好 的 优化 ， 还 提供 在 所 有 的 PE 上 的 文件 的 可 视 化 和 并 发 控制 机 制 。 运 行 在 网 络 文件 
系统 之 上 的 较 高 层 抽象 也 可 以 使 用 ， 例 如 ， 元 组 空间 和 黑板 。 基 于 文件 系统 的 解决 方案 适用 
于 粗 粒度 的 应 用 程序 ， 其 中 处 理 数 据 所 需要 的 时 间 比 访问 文件 系统 所 需要 的 时 间 多 得 多 。 

错误 处 理 。 对 于 某 些 应 用 程序 ， 可 能 需要 妥善 地 处 理 错误 情况 。 一 种 解决 方案 是 创建 一 
个 独立 的 任务 来 处 理 错误 。 和 常规 流水 线 的 每 一 个 阶段 将 它 不 能 处 理 的 任何 数据 元 素 和 相关 错 
误 信息 发 送 给 这 个 任务 ， 然 后 继续 处 理 流 水 线 中 的 下 一 项 。 负 责 处 理 错误 的 任务 恰当 地 处 理 
这 些 错误 数据 元 素 。 

处 理 器 分 配 和 任务 调度 。 最 简单 的 方式 是 为 流水 线 的 每 一 个 阶段 分 配 一 个 PE。 如 果 PE 
相似 ， 并 且 对 于 每 一 个 阶段 来 说 ， 处 理 一 个 数据 元 素 所 需要 的 工作 量 大 致 相等 ， 则 将 获得 很 
好 的 负载 平衡 。 如 果 各 个 阶段 需求 不 同 〈 例 如 ， 某 个 阶段 需要 在 专用 硬件 上 运行 )， 这 种 情况 
应 当 在 给 流水 线 阶 段 分 配 PE 时 考虑 。 

如 果 PE 的 数目 比 流 水 线 的 阶段 数目 少 ， 则 必须 将 多 个 阶段 分 配给 同一 个 PE， 最 好 采用 
一 种 能 够 提高 或 者 至 少 不 降 低 系 统 整体 性 能 的 方式 。 不 需要 共享 资源 的 多 个 阶段 可 以 分 配给 
同一 个 PE， 例 如 ， 一 个 写 人 硬盘 的 阶段 和 一 个 主要 涉及 CPU 计算 的 阶段 比较 适合 共享 一 个 
PE。 如 果 处 理 一 个 数据 元 素 所 需要 的 工作 量 在 各 阶段 间 不 同 ， 则 包含 较 少 工作 量 的 几 个 阶段 
可 以 分 配给 同一 个 PE， 从 而 改善 了 负载 平衡 。 将 相 邻 阶段 分 配给 同一 个 PE 可 以 降低 通信 开 
销 。 因 此 值得 考虑 将 流水 线 的 相 邻 阶段 组 合 为 单个 阶段 。 

如 果 PE 数目 比 流 水 线 的 阶段 数目 多 ， 则 应 该 考虑 使 用 一 种 恰当 的 算法 结构 模式 将 一 个 
或 多 个 流水 线 阶段 并 行 化 ， 像 前 面 讨 论 的 一 样 ， 可 以 将 多 个 PE 分 配给 并 行 化 的 阶段 。 如 果 并 
行 化 的 阶段 起 初 是 系统 的 一 个 瓶颈 〈 需要 花费 比 其 他 阶段 更 多 的 时 间 而 降低 了 整体 性 能 )， 则 
这 种 方法 非常 有 效 。 

另外 ， 需 要 重新 利用 比 流水 线 阶 段 数 更 多 的 PE， 如 果 数 据 项 之 间 没 有 时 间 约 束 ( 也 就 是 
说 ， 数 据 项 3 可 以 在 数据 项 2 之 前 计算 )， 则 可 以 并 行 地 运行 多 个 独立 的 流水 线 。 可 以 认为 这 
是 任务 并 行 模式 的 一 个 实例 。 该 方法 将 提高 整体 计算 的 吞吐 量 ， 但 并 没有 明显 增加 延迟 ， 因 
为 一 个 数据 元 素 仍然 需要 花费 相等 的 时 间 来 穿越 流水 线 。 

吞吐 量 和 延迟 。 当 评 佑 一 个 给 定 的 设计 是 否 会 产生 可 接受 的 性 能 时 ， 需 要 牢记 几 个 因素 。 

在 许多 使 用 流水 线 模式 的 情形 中 ， 有 趣 的 性 能 度量 是 否 吐 量 ， 即 流水 线 充 满 之 后 ， 每 一 
个 时 间 单 元 内 所 能 够 处 理 的 数据 项 数目 。 例 如 ， 如 果 流 水 线 的 输出 是 一 系列 演 染 图 像 ， 则 流 
水 线 必须 具有 充足 的 否 吐 量 ( 每 个 时 间 单 元 所 能 够 处 理 的 数据 项 数目 )， 按 要 求 的 帧 速率 生成 
图 像 。 

在 另 一 种 情形 中 ， 输 入 可 能 来 源 于 实时 采样 的 传感器 数据 。 此 时 ， 对 吞吐 量 〈 当 数 据 到 
来 时 ， 流 水 线 应 当 能 够 处 理 所 有 的 数据 ， 而 不 是 将 它们 备份 在 输入 队列 中 ， 也 不 能 造成 数据 
丢失 ) 和 延迟 ( 从 一 个 输入 元 素 的 产生 ， 到 处 理 完 该 输入 所 花费 的 总 时 间 量 ) 都 具有 限制 。 
在 这 种 情形 中 ， 需 要 最 小 化 受 限 的 延迟 来 确保 具有 足够 的 吞吐 量 ， 以 处 理 输入 数据 。 

5. 示例 

傅 里 时 变换 计算 。 信 和 号 处 理 中 广泛 使 用 的 一 种 计算 包括 对 不 同 的 数据 集 重复 地 执行 下 列 
计算 。 

1 ) 对 数据 集 的 每 一 个 元 素 执行 离散 傅 里 叶 变 换 (DFT ); 


78 BAF 


2) 处 理 变 换 元 素 的 结果 ; 
3 ) 对 于 所 处 理 的 结果 执行 逆 DFT. 
这 类 计算 的 示例 包括 卷 积 、 相 关 性 和 过 滤 操 作 [PTV93]。 
这 种 形式 的 计算 可 以 利用 一 个 3 阶段 流水 线 方便 地 完成 。 
e 流水 线 的 第 一 个 阶段 执行 初始 的 傅 里 叶 变换 ; 它 重 复 地 获得 一 个 输入 数据 集 ， 执 行 变 
换 操作 ， 并 将 结果 传递 给 流水 线 的 第 二 个 阶段 。 
e 流水 线 的 第 二 个 阶段 执行 所 期 望 的 元 素 处 理 ; 它 重 复 地 从 流水 线 的 第 一 个 阶段 获得 部 
分 结果 (对 输入 数据 集 应 用 最 初 的 傅 里 叶 变 换 所 得 的 结果 )， 执 行 处 理 ， 并 将 结果 传 
递 给 流水 线 的 第 三 个 阶段 。 通 常 可 以 使 用 算法 结构 模式 中 的 其 他 模式 将 这 个 阶段 本 身 
并 行 化 。 
e 流水 线 的 第 三 个 阶段 执行 最 后 的 逆 传 里 叶 变换 ; 它 重 复 地 从 流水 线 的 第 二 个 阶段 获得 
部 分 结果 ( 对 输入 数据 应 用 最 初 的 传 里 叶 变 换 ， 然 后 应 用 元 素 处 理 后 所 得 的 结果 )， 
执行 逆 傅 里 叶 变换 ， 并 输出 结果 。 
流水 线 的 每 个 阶段 一 次 处 理 一 个 数据 集 。 然 而 ， 除 了 流水 线 的 开始 填充 期 之 外 ， 流 水 线 
的 所 有 阶段 能 够 并 发 地 操作 。 当 第 一 个 阶段 正在 处 理 第 X 个 数据 集 时 ， 第 二 个 阶段 正在 处 理 
第 CN-1) 个 数据 集 ， 而 第 三 个 阶段 正在 处 理 第 ( N-2 ) 个 数据 集 。 
Java 流水 线 框 架 。 这 个 例子 的 图 形 为 流水 线 演示 了 一 个 简单 的 Java 框架 和 一 个 示例 应 
用 程序 。 | 
这 个 框架 由 一 个 关于 流水 线 阶段 的 基 类 (ipelinestage， 如 图 4-27 所 示 ) 和 一 个 关于 流水 
线 的 基 类 ( linearPipeline )， 如 图 4-28 所 示 ) 组 成 。 应 用 程序 为 每 一 个 阶段 提供 PipelineStage 


”类 的 一 个 子 类 ， 实 现 PipelineStage 类 的 3 个 抽象 方法 ， 来 表示 哪个 阶段 应 当 完 成 初始 步骤 ， 


哪个 阶段 应 当 完 成 计算 步骤 ， 哪 个 阶段 应 当 完 成 最 后 的 步 又， 并 且 提 供 LinearPipeline 类 的 
一 个 子 类 ， 实 现 LinearPipeline 类 的 所 有 抽象 方法 ， 用 以 创建 一 个 包含 流水 线 阶 段 的 数组 和 
连接 各 个 阶段 的 期 望 队 列 。 对 于 连接 各 个 阶段 的 队列 ， 使 用 LinkedBlockingQueue 类 ， 它 是 
BlockingQueue 接口 的 一 个 实现 。 这 些 类 位 于 java.util.concurrent 包 中 。 使 用 类 名 声明 队列 所 
包含 的 对 象 类 型 。 例 如 ，new LineKedBlockingQueue<String> 创建 一 个 BlockingQueue， 它 由 
能 够 存储 String 的 基本 链表 实现 。 令 人 感 兴趣 的 操作 是 put ( 即 疝 队列 中 添加 一 个 对 象 ) 和 
take ( 即 移 除 一 个 对 象 )。 如 果 队 列 为 空 ， 则 take 被 阻塞 。CountDownLatch 类 也 位 于 java.util. 
concurrent 包 中 ， 该 类 是 一 个 简单 的 栅栏 ， 它 允许 程序 在 终止 时 输出 一 条 消息 。 普 通 的 栅栏 和 
特殊 的 CountDownLatch 将 在 第 6 章 中 讨论 。 


import java.util.concurrent.*; 


abstract class PipelineStage implements Runnable { 


BlockingQueue in; 
BlockingQueue out; 
CountDownLatch s; 


boolean done; 


//override to specify initialization step 





图 4-27 流水 线 阶段 的 基 类 
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abstract void firstStep() throws Exception; 
//override to specify compute step 

abstract void step() throws Exception; 
//override to specify finalization step 
abstract void lastStep() throws Exception; 


void handleComputeException(Exception e) 
{ e.printStackTrace(); } 


public void run() 
{ 
try 
{ firstStep(); 
while(!done){ step() ;} 
lastStep() ; 


catch(Exception e){handleComputeException(e) ;} 
finally {s.countDown();} 
} 


public void init(BlockingQueue in, 
BlockingQueue out, 
CountDownLatch s) 

( this.in = in; this.out = out; this.s = s;) 





图 4-27 ( 续 ) 


import java.util.concurrent.*; 


abstract class LinearPipeline { 
PipelineStage[] stages; 
BlockingQueue[] queues; 
int numStages; 
CountDownLatch s; 


//override method to create desired array of pipeline stage objects 
abstract PipelineStage[] getPipelineStages(String[] args); 


//override method to create desired array of BlockingQueues 
//element i of returned array contains queue between stages i and i41 
abstract BlockingQueue[] getQueues(String(] args); 


LinearPipeline(String[] args) 

( stages - getPipelineStages(args); 
queues = getQueues(args); 
numStages - stages.length; 

s = new CountDownLatch(numStages) ; 


BlockingQueue in = null; 

BlockingQueue out = queues [0] ; 

for (int i = 0; i != numStages; i++) 

{ stages[i].init(in,out,s); 
in = out; 
if (i < numStages-2) out = queues[i*i]; else out = null; 
} 

} 


public void start() 
{ for (int i = 0; i != numStages; i++) 
{ new Thread(stages[i]).start(); 





图 4-28 线性 流水 线 的 基 类 
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其 余 的 图 展示 了 一 个 示例 应 用 程序 ( 整数 排序 的 流水 线 ) 的 代码 。 图 4-29 是 Linearpipeline 
需要 的 子 类 ， 图 4-30 是 Pipeline Stage 必需 的 子 类 。 这 里 未 显示 生成 输入 或 读 取 输入 ， 及 处 理 


输入 的 附加 流水 线 阶段 。 


import java.util.concurrent.*; 
class SortingPipeline extends LinearPipeline { 


/*Creates an array of pipeline stages with the 
number of sorting stages given via args. Input 
and output stages are also included at the 
beginning and end of the array. Details are omitted. 
x/ 

PipelineStage[] getPipelineStages(String[] args) 

LAP ss ax 

return stages; 


} 


/* Creates an array of LinkedBlockingQueues to serve as 
communication channels between the stages. For this 
example, the first is restricted to hold Strings, 
the rest can hold Comparables. */ 

BlockingQueue[] getQueues(String[] args) 

{ BlockingQueue[] queues = new BlockingQueue[totalStages - 1]; 


queues[0] = new LinkedBlockingQueue<String>() ; 

for (int i = 1; i!= totalStages -1; i++) 

{ queues[i] = new LinkedBlockingQueue<Comparable>() ;} 
return queues; 


SortingPipeline(String[] args) 
{ super(args) ; 


public static void main(String[] args) 
throws InterruptedException 

{ //create pipeline 
LinearPipeline 1 = new SortingPipeline(args) ; 
l.start(); //start threads associated with stages 
l.s.await(); //terminate thread when all stages terminated. 
System.out.println("All threads terminated"); 





图 4-29 流水线 排 序 (X25) 


class SortingStage extends PipelineStage 
{ 

Comparable val = null; 

Comparable input = null; 


void firstStep() throws InterruptedException 
{ input = (Comparable)in.take(); 

done = (input.equals("DONE")); 

val = input; 

return; 


) 





图 4.30 流水 线 排序 ( 排序 阶段 ) 
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void step() throws InterruptedException 
{ input = (Comparable)in.take(); 
done = (input.equals("DONE")); 
if (!done) 
{ if (val.compareTo(input)<0) 
{ out.put(val); val = input; } 
else { out.put(input); } 
) else out.put(val) ; 


void lastStep() throws InterruptedException 
{ out.put("DONE"); } 





图 4-30 ( 续 ) 


知名 应 用 。 信 和 号 处 理 和 图 像 处 理 的 许多 应 用 都 可 以 通过 流水 线 实现 。 

OPUS [SR98] 系统 是 一 个 由 太空 望远镜 科学 协会 开发 的 流水 线 框架 ， 起 初 用 于 处 理 哈 勃 
空间 望远镜 测 得 的 遥测 数据 ， 后 来 还 应 用 于 其 他 应 用 程序 。OPUS 使 用 一 种 基于 网 络 文件 系 
统 作为 阶段 间 通 信 的 黑板 体系 结构 。OPUS 还 包含 一 些 监控 工具 ， 并 支持 错误 处 理 。 

机 载 监 视 雷 达 使 用 了 时 空 自 适应 处 理 (STAPO 算法 ， 该 算法 被 实现 为 一 个 并 行 流水 线 
[CLW*00]。 每 个 阶段 本 身 就 是 一 个 并 行 算法 ， 流水线 需要 数据 在 某 些 阶段 间 重 新 分 配 。 

Fx[GoS94] 是 一 个 基于 HPF [HPF97] 的 并 行 Fortran 编译 器 ， 已 经 用 于 开发 多 个 示例 应 
用 程序 [DGO*94、SSOG93]， 这 些 应 用 结合 了 数据 并 行 性 (类 似 于 4.6 节 提 到 的 并 行 形式 ) 
和 流水 线 。 例 如 ， 某 个 应 用 通过 一 个 两 阶段 的 流水 线 ，( 其 中 ， 一 个 阶段 用 于 行 变换 ， 另 一 
个 阶段 用 于 列 变换 )， 其 中 每 一 个 阶段 本 身 利 用 数据 的 并 行 性 完成 并 行 化 。 论 文 SIGPLAN 
([SSOG93] ) 中 特别 有 趣 的 是 通过 性 能 数据 完成 对 基于 数据 的 并 行 方法 和 该 方法 的 比较 。 

[J92] 提供 了 一 些 关 于 流水 线 的 较 细 粒度 的 应 用 ， 包括 向 一 棵 树 中 插入 元 素 序列 和 基于 流 
水 线 的 归并 排序 。 

6. 相关 模式 

这 种 模式 非常 类 似 于 [BMR'96] 中 介绍 的 管道 与 过 滤器 模式 ， 主 要 差别 是 该 模式 显 式 地 
论述 了 并 发 性 。 

对 于 那些 输入 数据 间 没 有 时 间 依 赖 性 的 应 用 程序 ， 使 用 这 种 模式 的 另 一 种 方式 是 ， 利 用 
任务 并 行 模式 设计 一 种 基于 多 个 串 行 流水 线 的 应 用 ， 这 些 流 水 线 并 行 执行 。 

乍 一 看 ， 我 们 也 可 据 此 推测 : 使 用 责任 链 模式 [CHJV95] (Chain of Responsibility pattern ) 
构建 的 串 行 解决 方案 可 以 很 容易 地 使 用 流水 线 模式 完成 并 行 化 。 在 责任 链 (COR) 中 ,一 个 
“事件 ” 沿 着 对 象 链 传递 ， 直 到 一 个 或 多 个 对 象 处 理 该 事件 。 某 些 环境 直接 支持 这 种 模式 ， 例 
如 ， 在 Java Servlet 规范 [SER] “中 使 用 这 种 模式 进行 HTTP 请 求 的 过 滤 。 但 是 对 于 Servlet 和 
其 他 一 些 典型 的 COR 应 用 程序 来 说 ， 使 用 这 种 模式 的 原因 是 为 了 支持 一 个 程序 的 模块 化 构 
建 ， 其 中 ， 程 序 需要 根据 事件 的 类 型 而 选择 不 同 的 方式 来 处 理 独 立 的 事件 。 可 能 在 链 中 只 有 
一 个 对 象 处 理 该 事件 。 在 大 多 数 情形 中 ， 我 们 期 望 任务 并 行 模式 比 流水 线 模式 更 加 适合 。 
KE, Servlet 容器 实现 已 经 支持 多 线程 来 处 理 独立 的 HTTP 请 求 ， 且 免费 提供 该 解决 方法 。 


© Servlet Æ Web 服务 器 调用 的 Java 程 序 。Java Servlet 技 术 包 含 在 针对 Web 服务 器 应 用 程序 的 Java 2 
Enterprise Edition 平台 中 。 
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流水 线 模式 与 基于 事件 的 协作 模式 类 似 ， 两 种 模式 都 应 用 于 那些 很 自然 地 将 计算 分 解 为 
半 独 立 任务 集合 的 问题 。 其 中 ， 不 同 点 是 基于 事件 的 协作 模式 是 不 规则 的 和 异步 的 ， 而 流水 
线 模式 是 规则 的 和 同步 的 。 在 流水 线 模式 中 ， 半 独立 任务 表示 流水 线 的 各 个 阶段 ， 流 水 线 的 
结构 是 静态 的 ， 连 续 的 阶段 之 间 的 交互 是 规则 的 并 且 是 松散 同步 的 。 然 而 ， 在 基于 事件 的 协 
作 模 式 中 ， 任 务 之 间 以 非常 不 规则 和 异步 的 方式 进行 交互 ， 并 且 没 有 对 静态 结构 的 需求 。 


49 基于 事件 的 协作 模式 


1. 问题 
假设 可 以 把 问题 分 解 为 半 独 立 任务 的 分 组 ， 并且 这 些 任务 以 一 种 非 规 范 的 模式 交互 。 任 
务 之 间 的 数据 流 交 互 隐 含 了 任务 间 的 顺序 约束 。 如 何 实 现 这 些 任 务 和 任务 间 的 交互 ， 使 得 它 


们 能 够 并 发 地 执行 ? 


2: 背景 

一 些 问 题 可 以 非常 自然 地 表示 为 一 个 关于 半 独 立 实体 的 集合 ， 这 些 半 独立 实体 以 一 种 不 
规则 的 方式 交互 。 如 果 对 比 这 种 模式 和 流水 线 模 式 ， 这 就 是 最 清晰 的 差别 。 在 流水 线 模式 中 ， 
实体 组 成 一 个 线性 流水 线 ， 每 一 个 实体 仅 与 该 实体 两 侧 的 实体 交互 ， 数 据 流 是 单 向 的 ， 交 互 在 
相当 规范 和 可 预测 的 时 间 间 隅 中 进行 。 正 好 相反 ， 在 基于 事件 的 协作 模式 中 ， 不 存在 对 线性 结 
构 的 限制 ， 也 不 限制 数据 流 必须 是 单 向 的 ， 并 且 交 互 在 不 规则 和 不 可 预测 的 时 间 间 隔 中 进行 。 

以 现实 世界 的 编辑 部 作为 类 比 ， 编 辑 部 具有 记者 、 编 辑 、 复 审 人 员 和 其 他 收集 报道 题材 
的 雇员 。 当 记者 完成 报道 时 ， 他 们 将 报道 发 送 给 对 应 的 编辑 ; 编辑 确定 将 报道 发 送 给 复审 者 
(他 将 最 终 报道 返回 ) 或 者 返回 给 记者 做 进一步 修改 。 每 一 个 雇员 是 一 个 半 独 立 个 体 ， 他 们 的 
交互 ( 例如， 一 个 记者 将 一 个 报道 发 送 给 一 个 编辑 ) 是 不 规范 的 。 

在 离散 事件 仿真 领域 可 以 发 现 许 多 其 他 示例 。 所 谓 的 离散 事件 仿真 ， 是 对 一 个 由 对 象 集 
合 组 成 的 物理 系统 的 仿真 ， 对 象 间 的 交互 通过 离散 “事件 ”序列 表示 。 这 类 系统 的 一 个 示例 
是 [Mis86] 中 描述 的 汽车 清洗 工厂 ， 这 个 工厂 有 两 台 汽 车 清洗 机 器 和 一 个 服务 员 。 汽 车 到 达 
服务 员 处 的 时 间 是 随机 的 ， 如 果 有 一 人 台 机 器 空闲 ， 服 务 员 把 汽车 引 向 该 汽车 清洗 机 处 ， 如 果 
两 台 机 天 都 楷 忙 ， 则 排队 等 待 。 每 一 台 汽 车 清洗 机 一 次 只 清洗 一 辆 汽车 。 对 于 一 个 给 定 的 分 
布 或 者 到 达 时 间 ， 目 标 是 计算 一 辆 汽车 花费 在 该 系统 中 的 平均 时 间 ( 清洗 时 间 加 上 等 待 时 间 ) 
和 在 服务 员 处 所 排队 列 的 平均 长 度 。 这 个 系统 中 的 “事件 ”包括 : 汽车 到 达 服 务 员 处 ， 汽 车 
被 引 向 汽车 清洗 机 和 汽车 离开 清洗 机 。 图 4-31 概括 了 这 个 示例 。 注 意 ， 它 包括 “ 源 ” 和 “水 
池 ” 对 象 ， 以 方便 模拟 汽车 到 达 和 离开 
IJ o 为 外 注意 ， 当 汽车 离开 汽车 清洗 
机 时 ， 必 须 通知 服务 员 ， 使 得 他 知道 机 
器 是 否 繁忙 。 

另外 ， 有 时 人 们 期 望 将 一 些 现存 
的 、 串 行程 序 组 件 ( 它们 以 不 规则 的 方 
式 交 互 ) 组 合 为 一 个 并 行程 序 ， 而 不 改 


变 组 件 的 EE, 图 4-31 一 个 汽车 清洗 工厂 的 离散 事件 仿真 
针对 这 样 的 问题 ， 将 每 一 个 组 件 (箭头 表示 事件 流 ) 
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定义 为 一 个 任务 ( 或 者 一 个 紧密 斐 合 的 任务 分 组 ) 的 并 行 算法 是 可 行 的 ， 在 离散 事件 仿真 情 
形 中 ,该 组 件 是 一 个 仿真 实体 。 于 是 这 些 任务 间 的 交互 基于 任务 之 间 的 数据 流 所 决定 的 顺序 
ZR. 
3. 面临 的 问题 
e 一 个 好 的 解决 方案 应 当 能 够 简单 地 表示 顺序 约束 ， 这 些 顺 序 约束 可 能 是 不 规范 的 ， 甚 
至 是 动态 产生 的 。 它 还 应 当 使 尽 可 能 多 的 活动 能 够 并 发 地 完成 。 
© 数据 依赖 所 隐 含 的 顺序 约束 可 以 通过 将 它们 编码 到 程序 中 来 表示 例如， 利用 品行 合 
成 )， 或 者 采用 共享 变量 来 表示 。 但 是 利用 两 种 方法 都 无 法 得 到 简单 、 能 够 表示 复杂 
的 约束 关系 和 易于 理解 的 解决 方案 。 
4. 解决 方案 
一 个 好 的 解决 方案 基于 使 用 所 谓 的 事件 抽象 表示 的 数据 流 ， 其 中 每 一 个 事件 具有 一 个 产 
生 它 的 任务 和 一 个 处 理 它 的 任务 。 因 为 一 个 事件 必须 在 处 理 它 之 前 产生 ， 所 以 事件 也 定义 任 
务 间 的 顺序 约束 。 每 个 任务 内 的 计算 由 处 理 这 些 事 件 组 成 。 
定义 任务 。 每 一 个 任务 的 基本 结构 由 接收 一 个 事件 ， 处理 该 事件 ， 以 及 可 能 产生 的 事件 
组 成 ， 如 图 4-32 所 示 。 


initialize 
while(not done) 


receive event 


process event 
send events 


finalize 





图 4-32 基于 事件 的 协作 模式 中 一 个 任务 的 基本 结构 


如 果 程 序 由 已 有 的 组 件 构建 ， 则 任务 通过 向 组 件 提供 一 个 基于 事件 的 一 致 接口 ， 它 将 作 
为 正面 模式 (Facade pattern ) [GHJV95] 的 一 个 实例 。 

任务 接收 事件 的 顺序 与 应 用 程序 的 顺序 约束 必须 一 致 ， 这 一 点 将 在 后 面 讨论 。 

表示 事件 流 。 为 了 实现 计算 和 通信 重 琶 ,通常 需要 某 种 形式 的 事件 异步 通信 ， 在 这 种 通 
信和 方式 中 ， 一 个 任务 可 以 创建 (发送 ) 一 个 事件 ， 然 后 继续 向 后 执行 ， 而 不 用 等 待 接收 者 接 
收 它 。 在 消息 传递 环境 中 ， 一 个 事件 可 以 由 从 产生 该 事件 的 任务 异步 发 送 到 处 理 它 的 任务 的 
一 条 消息 表示 。 在 一 个 共享 内 存 环境 中 ， 可 以 使 用 一 个 队列 仿真 消息 传递 。 因 为 每 个 这 样 的 
队列 可 以 被 多 个 任务 访问 ， 所 以 必须 以 一 种 能 安全 并 发 访问 的 形式 来 实现 它 ， 如 5.9 节 所 述 。 
其 他 的 通信 抽象 ， 如 Linda 协作 语言 或 JavaSpace [FHA99] 中 的 元 组 空间 ( tuple space )， 也 可 
以 有 效 地 使 用 这 种 模式 。Linda [CG91] 是 一 种 仅 包含 6 种 操作 的 简单 语言 ， 这 些 操作 完成 对 
一 个 称 为 元 组 空间 的 相关 联 ( 即 内 容 可 寻 址 ) 共享 内 存 的 读 和 写 。 元 组 空间 是 一 种 概念 上 的 
共享 存储 区 ， 用 于 存放 那些 包含 称 为 元 组 的 对 象 的 数据 ， 其 中 ， 元 组 由 任务 使 用 ， 用 于 在 一 
个 分 布 式 系统 中 通信 。 

强制 执行 事件 的 顺序 。 顺 序 约 束 的 强制 执行 在 以 下 情形 中 是 必需 的 : 如 某 个 任务 需要 以 
一 种 与 事件 的 发 送 顺序 不 同 的 顺序 来 处 理 这 些 事件 ,或 者 一 个 任务 在 处 理 一 个 事件 时 ， 需 要 
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等 待 ， 直 到 接收 到 一 个 给 定 任务 的 其 他 事件 ， 因 此 通常 需要 能 够 预测 队列 或 消息 缓冲 区 ， 并 
且 能 够 以 任意 顺序 移 除 元 素 。 例 如 ， 考 虑 图 4-33 中 描述 的 情形 。 任 务 1 产生 了 一 个 事件 ， 将 
它 发 送 给 任务 2， 任 务 2 将 处 理 该 事件 ， 并 且 任 务 1 也 将 该 事件 发 送 给 任务 3， 其 中 ,任务 3 
记录 所 有 事件 的 信息 。 任 务 2 处 理 来 自 于 任务 1 的 事件 ， 并 产生 一 个 新 事件 ， 新 事件 的 副本 
也 被 发 送 给 任务 3。 假 设 由 于 调度 和 底层 通信 层 的 不 确定 性 导致 来 自 于 任务 2 的 事件 比 来 日 
任务 1 的 事件 早 到 达 。 依 赖 于 任务 3 处 理 这 些 事件 的 方式 ， 这 种 情形 可 能 会 产生 问题 ， 也 可 
能 不 会 产生 问题 。 如 果 任 务 3 只 是 简单 地 记录 所 产生 的 事件 的 数目 ， 则 不 会 产生 问题 。 但 是 ， 
WIRES 3 写 一 个 日 志 记 录 项 ， 该 记录 反映 事件 的 处 理 顺 序 ， 则 按照 事件 的 到 达 顺 序 简单 地 
处 理 它们 ， 将 会 产生 不 正确 的 结果 。 如 果 任 务 3 控制 一 个 门 ， 来 自 于 任务 1 的 事件 造成 门 打 
JF. 来 自 于 任务 2 的 事件 造成 门 关 闭 ， 因 此 ， 顺 序 凌 乱 的 消息 将 造成 严重 的 问题 ， 直 到 来 自 
于 任务 1 的 事件 到 达 并 被 处 理 之 后 ， 任 务 3 才能 处 理 第 一 个 事件 。 

在 离散 事件 仿真 中 ， 因 为 应 用 程序 域 的 语义 而 出 现 一 些 类 似 的 问题 。 一 个 事件 在 当 它 应 
当 被 调度 时 ， 在 某 个 仿真 时 间 该 事件 到 达 一 个 站 ( 任务 )。 一 个 事件 可 以 先 于 其 他 具有 较 早 仿 
真 时 间 的 事件 到 达 一 个 站 。 

在 某 些 特定 情形 中 ， 第 一 步 是 确定 顺序 凌乱 的 事件 是 否 会 产生 问题 。 如 果 “ 事 件 ” 的 路 
径 是 线性 的 ， 那 么 顺序 凌乱 的 事件 就 不 会 发 生 ， 也 将 不 存在 问题 〈 或 者 根据 应 用 的 语义 ， 顺 
序 凌 乱 的 事件 不 会 产生 问题 )。 

如 果 顺 序 凌 乱 的 事件 出 现 问题 ， 无 论 是 乐观 的 还 是 悲观 的 方式 都 可 以 选择 。 乐 观 方式 需 
要 有 对 事件 错误 执行 造成 的 影响 执行 回 滚 的 能 力 (包括 因为 乱 序 执行 所 创建 的 新 事件 带 来 的 
影响 )。 在 分 布 式 仿真 领域 ， 这 种 方法 称 为 时 间 扭 曲 (time wrap) [Jef85]。 如 果 一 个 事件 与 外 
部 世界 产生 交互 ， 则 乐观 方式 通常 行 不 通 。 翡 观 方式 是 以 增加 延迟 和 通信 开销 为 代价 ， 确 保 
事件 总 是 按照 顺序 执行 。 翡 观 方式 需要 确保 足够 “安全 ” 才 可 以 执行 事件 。 例 如 ， 在 图 4-33 
中 ， 直 到 任务 3 确保 没有 来 自任 务 1 的 更 早 事件 到 达 ， 任 务 3 
才 处 理 来 自 于 任务 2 的 事件 ， 反 之 亦 然 。 回 任务 3 提供 该 知识 
可 能 需要 引入 一 些 空 事 件 ， 除 了 包含 事件 的 顺序 之 外 ， 这 些 空 
事件 不 包含 任何 有 用 信息 。 翡 观 方式 的 许多 实现 基于 时 间 戳 ， 
时 间 戳 与 系统 中 的 因果 关系 一 致 [Lam78]。 

大 量 的 研发 工作 同时 采用 乐观 方式 [RMC'98] 和 悲观 方式 ”图 4-33 3 个 任务 间 基 于 事件 的 


[CLL'99] 处 理 离散 事件 仿真 中 的 事件 顺序 。 类 似 地 ， 在 通信 系 通信 ( 以 响应 从 任务 
统 所 引起 的 进程 组 中 ， 可 以 利用 中 间 件 处 理事 件 顺序 问题 。 其 1 接收 的 事件 ， 任 务 2 
中 一 个 示例 是 由 Cornell [vvRBH'98] 所 开发 的 Ensemble 系统 。 bs 5 ^ je 

避免 死 锁 。 使 用 这 种 模式 的 系统 可 能 在 某 个 应 用 层 产生 死 和 
锁 ， 因 为 某 些 原因 ， 系 统 处 于 一 种 状态 ， 在 该 状态 中 ， 如 果 不 序 到 达 任务 3 ) 


先 从 另外 一 个 任务 处 接收 一 个 永远 都 不 会 到 达 的 事件 ， 任 务 将 
无 法 继续 执行 。 这 种 情形 可 能 由 于 一 个 编程 错误 而 引发 ; 在 仿真 中 ， 它 也 可 能 由 于 被 仿真 的 
模型 中 的 问题 所 产生 。 对 于 后 一 种 情形 ， 开 发 者 必须 重新 考虑 解决 方案 。 

如 果 用 悲观 技术 控制 事件 的 处 理 顺序 ， 即 当 一 个 事件 达到 ， 实 际 上 本 该 被 处 理 ， 但 因为 
不 知道 该 事件 是 否 安全 而 没有 处 理 它 时 ， 将 会 发 生死 锁 。 通 过 交换 足够 的 信息 来 表明 事件 可 
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以 安全 地 处 理 ， 死 锁 可 以 解除 。 当 处 理 死 锁 的 开销 能 够 抵消 并 行 性 的 优点 ， 并 且 使 得 并 行 算 
法 慢 于 一 个 串 行 仿真 时 ， 这 将 是 一 个 非常 重要 的 问题 。 处 理 这 种 类 型 的 死 锁 的 方法 范围 包括 
从 频繁 地 发 送 足 够 的 “ 空 消息 ”来 完全 避免 死 锁 ( 代价 是 需要 许多 额外 的 消息 )， 到 使 用 死 锁 
检测 策略 来 检测 死 锁 的 存在 ， 然 后 解决 它 ( 代价 是 在 检测 和 解决 死 锁 之 前 ， 可 能 产生 大 量 的 
空闲 时 间 )。 根 据 死 锁 出 现 的 频率 来 选择 相应 的 方法 。 一 种 较 好 的 折衷 解 决 方案 是 使 用 超时 而 
不 是 精确 的 死 锁 检测 。 

调度 和 处 理 器 分 配 。 最 简单 的 方法 是 为 每 个 PE 分 配 一 个 任务 ， 并 使 得 所 有 的 任务 并 发 
地 执行 。 如 果 无 法 获得 充足 的 PE， 则 可 以 将 多 个 任务 分 配给 一 个 PE。 这 样 可 确保 具有 很 好 
的 负载 平衡 。 因 为 潜在 不 规则 的 结构 和 可 能 的 动态 属性 ， 以 这 种 模式 获得 负载 平衡 是 一 个 非 
常 困难 的 问题 。 某 些 支 持 这 种 模式 的 基础 结构 允许 任务 的 迁移 ， 使 得 负载 能 够 在 运行 时 动态 
地 保持 平衡 。 

事件 的 高 效 通信 。 如 果 要 使 应 用 程序 很 好 地 运行 ， 则 用 于 事件 通信 的 机 制 必须 足够 高 效 。 
在 一 个 共享 内 存 环境 中 ， 这 意味 着 需要 确保 通信 机 制 不 是 潜在 的 瓶颈 。 在 一 个 消息 传递 环境 
中 ， 几 种 涉及 效率 的 因素 需要 考虑 ， 例如， 在 任务 间 发 送 很 多 短 消 息 ， 或 者 设法 组 合 这 些 短 
消息 是 否 可 行 。[YWC*96] fi [WY95] 描述 了 一 些 考虑 因素 与 解决 方法 。 

5. 示例 

知名 应 用 。 许 多 离散 事件 仿真 应 用 程序 使 用 了 这 种 模式 。 用 于 分 析 空 中 交通 管制 系统 
[Wie01] 的 DPAT 模拟 是 一 个 使 用 乐观 处 理 技术 的 成 功 仿真 。 它 利用 GTW ( Georgia Tech Time 
Warp ) 系统 [DFP'49] 来 实现 。 论 文 ([Wie01] ) 描述 了 特定 于 应 用 程序 的 调 优 和 几 种 通用 的 
技术 ， 这 些 技术 使 得 仿真 能 够 很 好 地 工作 ， 而 不 用 为 了 乐观 的 同步 花费 大 量 的 开销 。 用 于 模 
仿 和 离散 事件 仿真 的 同步 并 行 环境 (SPEEDES ) [Met] 是 另外 一 种 乐观 的 仿真 引擎 ， 它 已 经 
用 于 大 规模 的 作战 演习 。 可 扩展 仿真 框架 ( SSF ) [CLL 99] 是 一 种 具有 悲观 同步 的 仿真 架构 ， 
它 已 经 用 于 互联 网 的 大 规模 模拟 。 

[YWC*96] 中 描述 的 CSWEB 应 用 程序 模拟 了 组 合 数 字 电 路 ( 即 无 反馈 路 径 的 电路 ) 的 电 
压 输 出 。 电 路 首先 被 分 解 为 多 个 子 电 路 ， 与 每 一 个 子 电路 相关 的 输入 信和 号 端口 和 输出 电压 端 
口 被 连接 起 来 ， 形 成 整个 电路 。 每 一 个 子 电路 的 仿真 以 时 间 步 的 模式 进行 。 在 每 一 个 时 间 步 ， 
每 一 个 子 电路 的 行为 依赖 于 它 前 面 的 状态 和 从 它 的 输入 端口 读 和 的 值 (这 些 值 对 应 于 其 他 子 
电路 的 输出 端口 在 之 前 时 间 步 中 的 对 应 值 )。 这 些 子 电路 的 仿真 可 以 并 发 地 执行 ， 并 具有 顺序 
约束 ， 这 些 约束 揭示 了 输出 端口 产生 的 值 和 输入 端口 读 和 的 值 之 间 的 关系 。[YWC”96] 中 描述 
的 解决 方案 符合 基于 事件 的 协作 模式 ， 它 为 每 一 个 子 电路 定义 一 个 任务 ， 并 将 顺序 约束 表示 
为 事件 。 

6. 相关 模式 

这 种 模式 与 流水 线 模式 相似 ， 因 为 两 种 模式 都 应 用 于 那些 很 自然 地 将 计算 分 解 为 一 个 关 
于 半 独 立 实体 的 集合 的 问题 ， 并 且 这 些 实体 间 以 数据 流 的 形式 交互 。 这 两 种 模式 存在 两 种 明 
显 的 差别 。 第 一 ， 在 流水 线 模式 中 ， 实 体 之 间 的 交互 是 相当 规范 的 ， 流 水 线 的 所 有 阶段 以 一 
种 松散 同步 的 方式 进行 ， 而 在 基于 事件 的 协作 模式 中 则 不 存在 这 种 交互 ， 实 体 以 非常 不 规范 
和 异步 的 方式 交互 。 第 二 ,在 流水 线 模式 中 ， 整 体 结构 ( 任务 数目 和 任务 间 的 交互 ) 通常 是 
固定 的 ， 而 在 基于 事件 的 协作 模式 中 ， 问 题 结构 是 动态 的 。 
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寻找 并 发 性 和 算法 结构 设计 空间 主要 集中 于 算法 表达 。 然 而 ,算法 终究 要 转换 为 程序 。 
支持 结构 设计 空间 描述 的 编程 模式 面向 并 行程 序 设计 阶段 ， 是 算法 结构 设计 空间 中 面向 问题 模 
式 和 实现 机 制 设计 空间 中 特定 编程 机 制 间 的 中 间 阶 段 。 这 些 模式 描述 了 支持 并 行 算法 表达 的 
软件 构造 或 结构 ， 因 此 我 们 将 这 些 模式 称 为 支持 结构 。 图 5-1 描述 了 支持 结构 设计 空间 的 总 
体 框图 和 它 在 模式 语言 中 的 位 置 。 

支持 结构 设计 空间 中 的 模式 分 
为 两 组 : 一 组 表示 程序 构造 方法 ， 另 
一 组 表示 常用 的 共享 数据 结构 。 下 一 
节 简 要 描述 了 这 些 模式 。 其 中 一 些 模 
式 在 许多 编程 环境 中 得 到 了 很 好 的 支 O ee — C 
持 ， 这 大 大 减轻 了 程序 员 的 工作 。 之 “| ilL sep ，| ;| “共享 数据 “| 
所 以 将 它们 描述 为 模式 ， 主 要 有 两 个 Wd o x/MEX | | 
原因 : 第 一 ， 理 解 这 些 结构 的 底层 实 
现 细节 对 于 高 效 使 用 它们 是 非常 重要 
的 ; 第 二 ， 将 这 些 结构 描述 为 模式 为 
需要 重新 实现 这 些 模式 的 程序 员 提供 
指南 。 本 章 最 后 一 节 描述 一 些 结构 ， 
或 许 它们 不 够 重要 而 没有 作为 专门 模 图 5-1 支持 结构 设计 空间 的 总 体 框图 和 它 在 模式 语言 中 的 位 置 
式 。 但 是 为 了 本 书 描述 的 完整 性 ， 还 是 有 必要 介绍 它们 的 。 
5.1.1 程序 结构 模式 


第 一 组 模式 描述 了 源 代 码 构 造 方法 。 这 些 模式 包含 如 下 几 种 。 

e SPMD. 在 SPMD ( Single Program Multiple Data， 单 程序 多 数据 ) 程序 中 ， 所 有 UE 
并 行 执行 同一 个 程序 (FEF), 但 每 个 UE 都 拥有 自己 的 私有 数据 集 ( 多 数据 )。 不 
同 UE 可 按照 不 同 的 路 径 执行 程序 。 在 源 代 码 中 ， 可 通过 使 用 一 个 唯一 标识 UE( 比如 ， 
进程 ID ) 的 参数 来 控制 UE 的 执行 路 径 。 

e 主 / 从 (master/worker ) 模式 。 主 进程 (master) (或 主线 程 ) 为 从 进程 (worker ) (或 
从 线程 ) 建立 一 个 工作 池 和 一 个 任务 包 。 所 有 从 进程 (线程 ) 并 发 执行 ， 每 个 从 进程 
(线程 ) 迭代 地 从 任务 包 中 移 除 一 个 任务 并 处 理 它 ， 直 到 所 有 任务 都 处 理 完毕 或 到 达 
菏 些 终止 条 件 为 止 。 在 一 些 实现 中 ,不 设立 显 式 的 主 进程 (线程 )。 
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e 循环 并 行 (loop parallelism ) 模式 。 该 模式 解决 了 将 一 个 以 计算 密集 循环 为 主导 的 串 

行程 序 转化 为 并 行程 序 ( 循环 的 不 同 迭 代 并 行 执行 ) 时 出 现 的 问题 。 

e 派生 /聚合 (fork/join ) 模式 。 一 个 主 UE 派生 出 多 个 子 UE， 这 些 子 UE 并 行 完 成 全 

部 工作 的 某 一 部 分 。 通 常 派 生 UE 处 于 等 待 状态 ， 直 到 所 有 子 UE 完成 任务 和 执行 聚 
合 操作 。 

将 这 些 程序 结构 定义 为 不 同 模式 ， 或 多 或 少 存在 人 为 因素 。 例 如 ， 可 以 使 用 派生 /聚合 
模式 或 SPMD 模式 实现 主 / 从 模式 。 这 些 模式 并 没有 定义 构造 并 行程 序 的 专 有 、 唯 一 方式 ， 
而 是 定义 经 验 丰 富 的 并 行程 序 员 的 主要 习惯 用 法 。 

根据 模式 语言 所 应 用 的 并 行 编程 环境 不 同 ， 对 这 些 模式 的 理解 也 不 可 避免 地 存在 一 些 不 
同 。 例 如 ， 对 于 MPI 程序 员 来 说 ， 所 有 程序 结构 模式 本 质 上 都 是 SPMD 模式 的 变 体 。 而 对 于 
OpenMP 程序 员 来 说 ， 使 用 线程 ID (SPMD 模式 ) 的 程序 与 使 用 基于 循环 的 任务 共享 结构 来 
表达 所 有 并 行 性 的 程序 ( 循环 并 行 模式 ) 相 比 具 有 很 大 的 差异 性 。 

因此 ， 在 使 用 这 些 模式 时 ， 没 有 必要 严格 区 分 它们 。 虽 然 这 些 模式 代表 一 些 值得 单独 分 
析 的 重要 技术 ， 但 是 在 实际 应 用 中 ， 可 通过 不 同方 式 进 行 组 合 以 满足 特定 程序 的 需要 。 例 如 ， 
在 SPMD 模式 中 ， 我 们 将 讨论 如 何 使 用 SPMD 模式 来 表达 基于 并 行 循环 的 并 行 算法 。 这 似乎 
说 明了 SPMD 模式 与 循环 并 行 模式 没有 本 质 区 别 ， 但 反映 了 SPMD 模式 的 灵活 性 。 


5.1.2 ”数据 结构 模式 


第 二 组 模式 负责 管理 数据 依赖 性 。 其 中 ， 共 享 数据 模式 代表 一 般 情况 ， 其 他 模式 描述 常 
用 的 特定 数据 结构 。 
e 共享 数据 。 该 模式 解决 多 个 UE 共享 数据 时 的 常见 问题 ， 并 讨论 正确 性 和 性 能 问题 。 
e 共享 队列 。 该 模式 是 熟悉 的 队列 抽象 数据 类 型 ( ADT ) 的 一 种 “线程 安全 ”实现 ， 即 
使 被 并 发 执行 的 多 个 UE 共同 使 用 时 ， 该 实现 也 能 保证 正确 的 语义 。 
e 分 布 式 数组 。 这 种 模式 代表 在 并 行 科学 计算 中 常见 的 一 类 数据 结构 ， 即 一 维 或 者 多 维 
数组 。 这 些 数组 被 划分 成 多 个 子 数 组 ， 并 在 进程 或 线程 间 进 行 分 配 。 


5.2 面临 的 问题 


所 有 程序 结构 模式 解决 了 相同 的 基本 问题 : 如何 构造 源 代码 以 更 好 的 支持 所 选择 的 算法 
结构 。 唯 一 面临 的 问题 是 每 种 模式 的 适用 性 以 及 围绕 这 些 结构 设计 一 个 程序 时 需要 考虑 的 常 
见 问 题 。 

e 抽象 清晰 性 。 并 行 算法 能 从 源 代 码 中 清晰 地 显示 出 来 吗 ? 

一 个 结构 清晰 的 程序 中 ， 算 法 跃然 纸 上 ， 读 者 可 非常 容易 地 了 解 算法 的 细节 ， 我 们 称 之 
为 抽象 清晰 。 因 为 并 行程 序 员 必 须 处 理 多 个 彼此 存在 交互 的 并 发 任务 ， 所 以 抽象 清晰 性 对 于 
编写 正确 的 代码 〈 特 别 是 并 行程 序 ) 非常 重要 。 当 通过 源 代 码 很 难 指出 算法 结构 时 ， 做 到 这 
一 点 是 非常 困难 的 。 

e 可 扩展 性 。 并 行程 序 可 高 效应 用 于 多 少 个 处 理 器 ? 

程序 的 可 扩展 性 受 三 个 因素 限制 。 首 先 ， 算 法 必须 要 有 足够 的 并 发 性 。 如 果 在 超过 10 个 
PE 上 运行 一 个 仅 有 10 个 并 发 任务 的 算法 ， 将 得 不 到 任何 好 处 。 其 次 ， 算 法 中 串 行 任 务 的 运 
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行 时 间 比 例 将 限制 所 能 够 使 用 的 处 理 器 数目 。 第 2 章 使 用 Amdahl 定理 定量 地 讨论 了 这 一 点 。 
最 后 ， 算 法 的 并 行 开销 增加 了 Amdahl 定理 中 的 串 行 时 间 比 例 ， 进 而 限制 了 算法 的 可 扩展 性 。 
e 效率 。 程 序 对 并 行 计 算 机 资源 的 有 效 利 用 率 是 多 少 ? 我 们 回忆 一 下 第 2 章 给 出 的 效率 

的 量化 定义 : 


E(P) = 2 (5-1) 


aie (5-2) 
PT(P) 

式 中 , PHEPERMA, T CI) ERTA H, T(P) 是 P 个 PE 的 并 行 时 间 。S CP) 
为 加 速 比 。 

效率 最 严格 的 定义 将 T (1) 设置 为 在 研究 的 并 行 算法 对 应 的 最 佳 串 行 算法 的 执行 时 间 。 
然而 ， 当 分 析 并 行程 序 时 ， 并 不 是 每 次 都 能 获得 “最 佳 ”的 串 行 算法 ， 所 以 通常 使 用 并 行程 
序 在 单个 PE 上 的 运行 时 间作 为 参考 时 间 。 因 为 即使 当 并 行程 序 运行 在 单个 PE 上 时 ， 管 理 并 
行 计算 也 总 会 产生 一 些 开 销 ， 所 以 可 能 会 导致 得 出 的 效率 比 真实 效率 高 。 效 率 与 可 扩展 性 密 
切 相关 ， 一 个 高 度 可 扩展 的 算法 也 是 高 效 的 算法 。 然 而 ， 当 算法 的 可 扩展 性 被 可 用 的 任务 数 
目 或 并 行 硬件 所 限制 时 ， 算 法 效率 也 可 能 不 受 此 影 啊 。 

e 可 维护 性 。 程 序 容易 调试 、 验 证 和 修改 吗 ? 

将 算法 转换 为 源 代码 几乎 从 来 不 是 一 次 就 能 完成 的 。 例 如 ， 程 序 可 能 需要 调试 、 添 加 新 
功能 以 及 调 优 性 能 等 ， 对 代码 的 这 些 重 构 称 为 代码 维护 。 代 码 的 可 维护 性 取决 于 对 代码 完成 
这 些 改变 以 及 进行 正确 性 验证 的 难 易 程 度 。 

e 环境 适应 性 。 程 序 能 和 所 选 的 编程 环境 以 及 硬件 很 好 地 结合 在 一 起 吗 ? 

例如 ， 如 果 硬 件 不 支持 共享 内 存 ， 那 么 基于 共享 内 存 的 算法 结构 将 不 是 一 个 好 的 选择 。 
编程 环境 的 选择 也 会 产生 此 类 问题 。 当 创建 编程 环境 时 ,创建 者 通常 会 在 大 脑 里 构思 具有 某 
种 特定 类 型 的 编程 方式 。 例 如 ，OpenMP 是 专门 为 由 大 量 循环 构成 的 程序 设计 的 ， 循 环 迭 代 
将 会 被 多 个 线程 分 割 以 并 行 执 行 (并行 循环 模式 )。 当 程序 结构 能 够 和 编程 环境 很 好 地 结合 
时 ， 软 件 编 写 也 相对 容易 。 

e 串 行 等 价 性 。 一 个 程序 在 多 个 UE 上 的 运行 结果 和 在 一 个 UE 上 的 运行 结果 相同 吗 ? 

如 果 不 相 同 ， 它 们 又 具有 什么 关系 ? 

无 论 并 行程 序 运 行 在 多 少 个 PE 上 ， 人 们 都 期 望 每 次 执行 结果 都 应 该 是 相等 的 。 但 事实 
并 不 总 是 这 样 ， 特 别 是 需要 执行 按 位 相等 操作 时 ， 由 于 浮 点 数 运算 会 以 不 同 的 顺序 执行 可 能 
会 导致 结果 产生 小 的 改变 ( 对 于 病态 算法 来 说 ， 改 变 可 能 会 非常 大 )。 如 果 并 行程 序 在 一 个 处 
理 器 上 执行 多 次 都 能 给 出 相同 的 结果 ， 则 可 以 推断 程序 是 正确 的 ， 并 且 需 要 在 单个 处 理 器 上 
进行 大 部 分 程序 测试 。 如 果 可 能 ， 串 行 等 价 性 是 一 个 非常 理想 的 目标 。 


5.3 ”模式 选择 


程序 结构 选择 通常 会 比较 简单 。 在 大 多 数 情 况 下 ， 为 工程 所 选 的 编程 环境 以 及 所 使 用 的 
算法 结构 设计 空间 模式 将 会 给 出 合适 的 程序 结构 模式 。 我 们 将 独立 考虑 这 两 个 因素 。 

算法 结构 模式 与 支持 结构 模式 的 对 应 关系 如 表 5-1 所 示 。 注 意 ， 支 持 结构 模式 可 应 用 于 
多 个 算法 结构 模式 。 例 如 ， 考 虑 主 / 从 模式 : 在 [BCM'91.CG91.CGMS94] 中 ， 从 极 易 并 行 
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程序 (任务 并 行 模式 中 的 一 种 特殊 情况 ) 到 使 用 几何 分 解 模式 的 程序 ， 主 /从 模式 都 有 应 用 。 
SPMD 模式 更 加 灵活 ， 覆 盖 了 在 科学 计算 ( 科学 计算 一 般 强 调 几何 分 解 、 任 务 并 行 以 及 分 治 
模式 ) 中 使 用 的 大 多 数 重要 的 算法 结构 。 这 种 灵活 性 也 使 得 完全 基于 算法 结构 模式 选择 一 种 
程序 结构 模式 变 得 非常 困难 。 


表 5-1 支持 结构 模式 与 算法 结构 模式 之 间 的 对 应 关系 。 星 的 数目 (0 ~ 4) 表示 
对 于 给 定 的 支持 结构 模式 ， 实 现 对 应 的 算法 结构 模式 的 可 能 性 
基于 事件 的 协作 
SPMD a 
Baa ST a E TEN a | 
x AA x 
T AETA aa | | wana | sane 
然而 ， 编 程 环境 的 选择 有 助 于 缩小 选择 范围 。 表 5-2 给 出 了 编程 环境 和 支持 结构 模式 之 
间 的 对 应 关系 。 例 如 ， 对 于 在 分 布 式 内 存 计算 机 上 使 用 的 MPI 编程 环境 来 说 ，SPMD 是 无 疑 
是 最 佳 选 择 。 而 在 共享 内 存 计算 机 上 使 用 的 OpenMP 编程 环境 与 循环 并 行 模式 结合 得 最 好 。 
编程 环境 和 算法 结构 模式 的 组 合 通常 能 够 选择 一 种 支持 结构 模式 。 


表 5-2 ”编程 环境 和 支持 结构 模式 之 间 的 对 应 关系 。 星 的 数目 (0 ~ 4) 表示 
对 于 给 定 的 支持 结构 模式 ， 可 在 对 应 的 编程 环境 中 使 用 的 可 能 性 


SPMD T 
mom TT 
E/E TT 

54 SPMD 模式 


1. 问题 

编写 正确 高 效 的 并 行程 序 会 遇 到 很 多 问题 ， 绝 大 多 数 问 题 是 由 UE 间 的 交互 导致 的 。 程 
序 员 如 何 构造 并 行程 序 ， 使 得 这 些 交互 更 具有 可 管理 性 ， 并 能 更 方便 地 与 核心 计算 结合 在 一 
起 呢 ? 

2. 背景 

并 行程 序 将 编写 程序 的 复杂 性 提高 到 一 个 新 的 级 别 。 编 写 其 他 程序 所 遇 到 的 所 有 普遍 性 
挑战 ， 编 写 并 行程 序 都 会 遇 到 。 编 写 并 行程 序 的 最 大 挑战 是 程序 员 必 须 同 时 管理 运行 在 多 个 
UE 上 的 多 个 任务 。 此 外 ， 这 些 任务 和 UE 的 交互 ， 要 么 通过 消息 传递 ， 要 么 通过 共享 内 存 来 
实现 。 尽 管 并 行程 序 具 有 这 些 复杂 性 ， 但 是 一 方面 必须 要 保证 程序 的 正确 性 ; 另 一 方面 ， 为 
了 避免 过 度 的 额外 开销 ， 因 此 必须 要 充分 协调 任务 间 的 交互 。 

幸运 的 是 ， 大 多 数 并 行 算法 在 每 一 个 UE 上 都 执行 相似 的 操作 。 虽 然 每 个 UE 处 理 的 数 
据 可 能 不 一 样 ， 或 者 在 某 些 UE 上 可 能 会 执行 一 些 稍微 不 同 的 计算 ( 例如 ， 偏 微分 方程 解法 
器 对 边界 条 件 的 处 理 )， 但 是 绝 大 多 数 情况 下 ， 每 一 个 UE 会 执行 相似 的 计算 。 因 此 ， 在 很 多 
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场景 中 ,将 任务 放 在 同一 源 树 中 ， 可 使 任务 和 它们 之 间 的 交互 更 具 管 理性 。 采 用 这 种 方式 ， 
可 统一 任务 的 逻辑 以 及 任务 间 交 互 的 逻辑 ， 因 此 更 容易 管理 它们 。 

这 就 是 所 谓 的 “单程 序 多 数据 ”( SPMD ) 方法 。 在 可 扩展 并 行 计算 发 展 的 前 期 ， 这 是 构 
造 并 行程 序 的 主要 方式 。 很 多 编程 环境 ， 特 别 是 MPI , 都 支持 这 种 方法 ”。 

除 对 程序 员 有 优势 之 外 ，SPMD 也 方便 对 解决 方案 的 管理 。 如 果 仅 需要 管理 一 个 程序 ， 
那么 保持 软件 基础 架构 的 更 新 和 一 致 性 是 非常 容易 的 。 对 于 具有 大 量 PE 的 系统 来 说 ， 这 个 因 
素 尤 其 重要 。PE 的 数量 可 以 非常 巨大 。 例 如 ,根据 2003 年 11 月 世界 超级 计算 机 Top 500 列 
de, 世界 上 最 快 的 两 台 计 算 机 分 别 是 位 于 日 本 地 球 模拟 中 心 的 Earth Simulator 和 位 于 洛斯 阿 
拉 莫 斯 国家 实验 室 的 ASCI Q， 它 们 分 别 具 有 5120 和 8192 个 处 理 器 。 如 果 在 每 个 PE 上 运行 
一 个 不 同 的 程序 ， 那 么 应 用 软件 的 管理 就 会 变 得 非常 困难 。 

SPMD 是 构造 并 行程 序 的 最 常用 模式 。 对 于 MPI 程序 员 以 及 需要 使 用 任务 并 行 模式 和 几 
何 分 解 模式 求解 的 问题 来 说 ,更 是 如 此 。 而 对 于 使 用 分 治 模 式 和 递归 数据 模式 求解 的 问题 ， 
SPMD 也 被 证 明 是 非常 高 效 的 。 
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面临 的 问题 


e 对 于 程序 员 来 说 ， 在 每 一 个 UE 上 运行 相似 的 代码 ， 是 比较 容易 的 事情 。 但 是 大 多 数 


复杂 的 应 用 程序 往往 需要 在 不 同 的 UE 上 运行 不 同 的 操作 ， 并 且 处 理 不 同 的 数据 。 


e 软件 的 生命 周期 往往 比 给 定 的 并 行 计算 机 长 。 因 此 ， 程 序 应 当 具 有 可 移植 性 。 这 就 强 


迫 程 序 员 假设 编程 环境 中 的 最 低 通用 标准 ， 并 假设 仅 可 以 利用 基本 机 制 来 协作 任务 
交互 。 


o 并 行程 序 要 获得 高 可 扩展 性 以 及 卓越 性 能 需要 程序 与 并 行 计算 机 架构 很 好 地 结合 在 一 
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起 。 因 此 ， 程 序 员 必 须 沿 握 以 及 合理 控制 并 行 计算 系统 的 架构 细节 。 
解决 方案 


SPMD 模式 通过 创建 运行 在 每 个 UE 上 的 源 代码 副本 ， 很 好 地 解决 了 这 些 问题 。 解 决 方 
案由 下 面 的 基本 元 素 构成 。 


初始 化 。 程 序 被 加 载 到 每 一 个 UE 上 ， 并 打开 bookkeeping 操作 以 创建 一 个 通用 上 下 
文 。 这 个 过 程 的 细节 与 并 行 编 程 环 境 紧密 集合 ， 并 且 通 常会 建立 其 他 UE 的 通信 通道 。 
获得 唯一 标识 符 。 在 程序 的 最 上 面 ， 设置 一 个 唯一 标识 UE 的 标识 符 。 它 通常 是 
MPI 组 范围 内 UE 的 秩 ( 即 0 ~ N-1 之 间 的 一 个 数字 ， 其 中 NN 是 UE 的 数目 ), 或 
者 OpenMP 中 的 线程 ID。 这 个 唯一 标识 符 可 使 不 同 UE 在 程序 运行 期 间 制 定 不 同 的 
策略 。 

在 每 个 UE 上 运行 相同 的 程序 ， 并 使 用 唯一 的 ID 来 区 分 不 同 UE 的 行为 。 每 个 UE 上 
运行 相同 的 程序 ， 其 所 执行 指令 的 差别 通常 由 标识 符 来 定义 (也 可 以 依赖 于 UE 的 数 
据 )。 不同 UE 执行 源 代码 中 不 同 路 径 的 选择 方式 有 多 种 ， 最 常用 的 有 : 使 用 分 支 语 


这 并 不 是 编程 环境 推出 SPMD 的 原因 ， 主 要 原因 来 源 于 其 他 方面 。MIMD ( Multiple Instructions Multiple 
Data， 多 指令 多 数据 ) 机 器 的 编程 环境 推出 SPMD 是 因为 SPMD 是 程序 员 编写 程序 的 最 好 方式 。 之 所 以 
采用 这 种 编程 方式 ， 是 因为 SPMD 既 可 以 获得 正确 的 逻辑 、 高 效 的 任务 执行 和 交互 ， 也 支持 在 不 同 的 UE 
上 运行 不 同 的 程序 ( 有 时 候 这 称 为 MPMD 程序 结构 )。 根 据 PVM 的 经 验 和 优点 ，MPI 设计 者 选择 仅 支 持 
SPMD. 


句 ， 将 特定 的 代码 块 赋予 不 同 的 UE; QER UE 的 标识 符 来 计算 循环 索引 ， 从 而 使 不 
同 的 UE 执行 不 同 的 迭代 。 
e 分 配 数据 。UE 上 的 数据 分 配 主要 有 两 种 方式 : 全 局 数据 分 块 ， 并 存储 在 对 应 UE 的 
局 部 内 存 中 ， 如 果 需 要 ， 再 将 它们 组 合 为 全 局 相关 结果 。@) 共 享 或 者 复制 程序 的 主要 
数据 结构 ， 并 使 用 UE 标识 符 将 数据 子 集 与 对 应 的 UE 相关 联 。 
结束 。 通 过 清除 共享 上 下 文 并 终止 计算 来 结束 程序 。 如 果 全 局 相关 数据 分 布 在 各 个 
UE 中 ， 则 需要 重新 组 合 。 

讨论 。 开 发 SPMD 程序 时 ， 一 个 需要 牢记 的 重要 问题 是 抽象 的 清晰 性 ， 即 通过 阅读 程序 
的 源 代 码 来 理解 算法 的 难 易 程度 。 这 依赖 于 数据 的 处 理 方 式 ， 处 理 方式 的 好 坏 将 直接 影响 结 
果 。 如 果 需 要 使 用 UE 标识 符 进 行 复杂 的 代数 运算 ， 以 确定 与 UE 相关 的 数据 或 指令 分 支 ， 则 
几乎 无 法 从 源 代码 中 识别 出 算法 (5.10 节 讨 论 关 于 数组 的 有 用 技术 )。 

在 很 多 情况 下 ， 结 合 简单 循环 分 割 方法 的 数据 复制 算法 是 最 佳 选 择 。 这 是 因为 这 种 方法 
不 仅 实现 了 并 行 算法 源 代码 抽象 的 清晰 性 ， 而 且 实 现 了 与 串 行 算法 的 高 度 等 价 性 。 遗 憾 的 是 ， 
这 种 简单 方法 的 可 扩展 性 比较 差 ， 因 此 需要 更 加 复杂 的 解决 方案 。 实 际 上 ，SPMD 算法 具有 
高 可 扩展 性 并 且 需 要 UE 间 的 复杂 协作 。SPMD 模式 已 经 编写 了 能 够 扩展 到 几 千 个 UE[PH95] 
上 的 算法 。 高 度 可 扩展 算法 通常 极度 复杂 ， 因 为 它们 需要 在 节点 间 分 配 数据 (也 就 是 说 ， 不 
存在 简单 的 数据 复制 技术 )， 并 且 通 常会 使 用 复杂 的 负载 均衡 逻辑 。 遗 憾 的 是 ， 这 些 算 法 在 它 
们 的 连续 副本 之 间 缺 乏 相 似 性 ， 这 也 反映 了 SPMD 模式 的 一 个 常见 缺点 。 

SPMD 的 一 个 重要 优势 就 是 与 启动 和 终止 相关 的 开销 都 隔离 在 程序 的 开始 和 结束 之 处 ， 
而 不 位 于 以 时 间 为 关键 因素 的 循环 之 内 。 这 提高 了 程序 效率 ， 同 时 也 引发 了 由 通信 开销 、UE 
间 计 算 负 和 载 均衡 以 及 算法 可 用 并 发 量 驱动 的 效率 问题 。 

SPMD 程序 能 与 基于 消息 传递 的 编程 环境 紧密 结合 。 例 如 ， 大 多 数 MPI 或 PVM 程序 
使 用 SPMD 模式 。 但 是 ， 要 注意 ，OpenMP 也 可 能 使 用 SPMD 模式 [CPP01]。 在 硬件 方面 ， 
SPMD 不 假设 关于 地 址 空间 (任务 在 该 地 址 空间 范围 内 执行 ) 的 任何 内 容 。 只 要 每 个 UE 能 
够 运行 指令 流 来 操作 其 数据 ( 即 ， 计算机 可 以 归 类 为 MIMD 类 型 ), SPMD 结构 就 满足 要 求 。 
SPMD 程序 的 这 种 通用 性 是 一 种 强大 优势 。 

5. 示例 

采用 SPMD 模式 的 应 用 程序 所 引发 的 问题 可 用 如 下 3 个 特殊 的 示例 来 讨论 : 

e 数值 积分 ， 使 用 梯形 法 则 来 估算 一 个 定 积分 的 值 ; 

e 分 子 动力 学 、 作 用 力 计算 ; 

e Mandelbrot 集合 计算 。 

数值 积分 。 本 节 使 用 在 并 行程 序 教学 中 频繁 用 到 的 一 个 非常 简单 的 程序 来 探讨 SPMD 模 
式 所 带 来 的 问题 。 考 虑 使 用 式 (5-3) 估计 c 的 值 : 


n=) perder (5-3) 
我 们 使 用 梯形 法 则 来 求解 这 个 积分 。 其 基本 思想 是 使 用 一 系列 矩形 填充 一 条 曲线 之 下 的 


区 域 。 当 和 矩形 的 宽度 接近 0 时 ， 甜 形 面积 的 和 接近 于 积分 值 。 
图 5-2 显示 了 在 单 处 理 器 上 进行 这 种 计算 的 串 行程 序 。 为 简单 起 见 ， 我 们 将 积分 中 的 和 迭 
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代 次 数 固定 为 1000 000, AEH sum 初始 化 为 0， 步 长 由 x (在 这 种 情形 中 ，x 为 1.0 ) 除 以 总 
迭代 次 数 计算 得 到 。 每 一 个 矩形 的 面积 等 于 宽 ( 步 长 ) 乘 以 高 ( 被 积 函 数 在 区 间 的 中 心 值 )。 
因为 宽 是 一 个 常量 ， 所 以 我 们 将 其 放 在 迭代 循环 之 外 ， 并 使 用 步 长 〈《 step ) 乘 以 矩形 高 度 的 
总 和 ， 以 获得 定 积分 的 估算 值 。 


#include <stdio.h> 
#include <math.h> 


int main () { 
int i; 
int num_steps = 1000000; 
double x, pi, step, sum = 0.0; 


step = 1.0/(double) num_steps; 


for (i=0;i< num steps; i++) 


x = (i*0.5)*step; 

sum = sum + 4.0/(1.0+x*x) ; 
} 
pi = step * sum; 
printf("pi Z1f\n",pi); 
return 0; 





图 5-2 利用 梯形 规则 估算 m 值 的 串 行程 序 

我 们 将 会 看 到 这 个 算法 的 不 同 并 行 版 本 ,图 5-3 所 示 。 从 这 个 算法 的 简单 MPI 版 本 中 ， 
可 以 看 到 经 典 SPMD 程序 的 所 有 元 素 。 相 同 的 程序 运行 在 每 个 UE 上 。 在 程序 的 初始 部 分 ， 
初始 化 MPI 环 境 ， 每 个 UE 的 ID (my id) 由 与 communicator MPI COMM WORLD ( X 
于 communicator 和 其 他 MPI 的 细节 信息 ， 参 考 附录 B) 进程 组 中 的 每 个 UE 的 进程 秩 所 给 
定 。 根 据 UE 的 数量 和 ID， 将 某 个 范围 的 (i start 和 i end) 循环 分 配给 UE 执行 。 因 
为 循环 迭代 次 数 可 能 不 能 被 UE 数量 整除 ， 所 以 必须 保证 最 后 一 个 UE 运行 完 循环 中 的 最 后 一 
次 迭代 。 每 个 UE 计算 出 部 分 和 之 后 ， 乘 以 步 长 step， 然 后 使 用 MPI_Reduce0 例 程 接口 
将 部 分 和 归 约 为 一 个 全 局 结果 (第 6 章 非常 详细 地 描述 归 约 操作 ); 这 个 全 局 结果 只 能 在 my_ 
id==0 的 进程 中 获得 ， 因 此 ， 我 们 用 此 进程 输出 最 终结 果 。 


#include <stdio.h> 
#include <math.h> 
#include <mpi.h> 


int main (int argc, char *argv[]) { 
int i, i_start, i_end; 
int num_steps = 1000000; 


double x, pi, step, sum = 0.0; 


int my_id, numprocs; 
step = 1.0/(double) num_steps; 


MPI Init(£argc, &argv); 
MPI Comm rank(MPI COMM WORLD, &my id); 
MPI Comm. size(MPI COMM WORLD, &numprocs) ; 





图 5-3 利用 梯形 规则 积分 的 MPI 并 行程 序 ， 其 方式 是 将 循环 迭代 分 块 分 配给 每 个 UE， 最 后 执行 归 约 操作 
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i_start = my_id * (num_steps/numprocs) ; 
i_end = i_start + (num_steps/numprocs) ; 
if (my_id == (numprocs-1)) i_end = num_steps; 


for (i=i_start; i< i_end; i++) 


x = (i+0.5)*step; 
sum = sum + 4,0/(1.0+x*x) ; 

} 

sum *= step; 

MPI_Reduce(&sum, &pi, 1, MPI DOUBLE, MPI_SUM, O, 
MPI. COMM, WORLD) ; 

if (my_id == 0) printf("pi %1f\n",pi); 

MPI Finalize(); 

return O0; 





图 5-3 (£) 


实质 上 ， 图 5-3 中 的 示例 中 所 做 的 是 复制 关键 数据 ( 在 这 里 是 部 分 和 ，sum )， 根据 UE 
的 ID 将 任务 显 式 地 划分 为 快 ， 每 个 UE 处 理 一 个 任务 块 ， 然 后 将 局 部 结果 归 约 为 最 终结 果 。 
这 种 模式 具有 三 个 挑战 : QD 正确 划分 数据 ，@ 正 确 归 约 结果 ，@ 均 匀 分 配 工作 。 前 两 个 挑战 
在 这 个 示例 中 微不足道 。 然 而 ， 负 载 平衡 稍微 有 些 困难 。 在 图 5-3 的 示例 中 ， 如 果 循 环 迭 代 
次 数 不 能 整除 UE 数目 ， 可 能 会 导致 最 后 一 个 UE 分 配 较 多 的 工作 。 为 了 更 均衡 地 分 配 工作 ， 
需要 将 额外 的 循环 迭代 分 配给 多 个 UE。 图 5-4 中 的 程序 片段 给 出 了 一 种 完成 这 种 功能 的 方 
法 : 将 循环 迭代 次 数 除 以 处 理 器 数目 后 ， 计 算 剩 余 的 迭代 次 数 ( rem )， 然 后 由 前 rem 个 UE 
负责 完成 这 些 循环 迭代 。 然 而 ， 这 种 索引 计算 方式 也 是 SPMD 模式 程序 员 的 潜在 危险 点 ， 不 
仅 非常 容易 出 错 ， 而 且 当 程 序 员 试图 理解 这 种 逻辑 推理 时 ， 非 常 耗 时 间 。 


int rem = num_steps % numprocs; 


i_start = my_id * (num_steps/numprocs) ; 
i_end = i_start + (num_steps/numprocs) ; 


if (rem != 0){ 
if(my id < rem){ 
i_start += my_id; 


i_end += (my_id + 1); 
} 
else 1 

i_start += rem; 

i_end += rem; 


} 
} 





图 5-4” 当 迭代 次 数 不 能 被 UE 数目 整除 时 ， 这 种 索引 计算 方式 能 够 均匀 分 配 任务 。 
其 思想 是 将 剩余 的 任务 (rem ) 分 配给 前 rem 个 UE 


最 后 ， 我 们 在 数值 积分 程序 中 应 用 一 种 循环 划分 策略 ， 最 终 程序 如 图 5-5 所 示 。 这 是 一 
种 常用 的 任务 划分 技巧 ， 即 周期 性 地 分 配 循环 迭代 : 每 个 UE 从 等 于 它 的 秩 的 迭代 开始 ， 以 
等 于 UE 数目 的 路 度 在 循环 迭代 中 前 进 。 循 环 和 迭代 像 分 发 纸牌 所 采用 的 方法 一 样 被 交错 分 配 
给 UE。 这 个 程序 版 本 均衡 地 分 配 了 任务 负载 ， 而 不 用 求助 于 复杂 的 索引 计算 。 


#include <stdio.h> 
#include <math.h> 
#include <mpi.h> 


int main (int argc, char *argv[]) { 
int i; 
int num_steps = 1000000; 
double x, pi, step, sum = 0.0; 


int my_id, numprocs; 
step = 1.0/(double) num_steps; 


MPI Init(&argc, &argv); 
MPI Comm rank(MPI COMM WORLD, &my id); 
MPI Comm, size(MPI, COMM WORLD, &numprocs); 


for (i=my_id; i< num steps; i*- numprocs) 
1 
x 7 (i*0.5)*step; 
sum = sum + 4.0/(1.0*x*x) ; 
) 
sum *- step; 
MPI Reduce(&sum, kpi, i, MPI DOUBLE, MPI SUM, O, 
MPI COMM. WORLD) ; 
if (my_id == 0) printf("pi %1f\n",pi); 
MPI_Finalize(); i 
return O0; 





图 5-5 利用 梯形 规则 积分 的 MPI 并 行程 序 ， 使 用 一 种 简单 的 循环 划分 算法 : 
周期 性 分 配 迭 代 ， 最 后 执行 一 个 归 约 操作 


SPMD 程序 也 可 以 用 OpenMP 和 Java 编写 。 图 5-6 是 上 述 算法 的 OpenMP 版 本 ， 与 MPI 程序 
非常 相似 。 该 程序 具有 单个 并 行 区 域 ， 我们 从 确定 线程 数目 以 及 线程 ID 开始 ， 使 用 相同 的 方式 将 
PEIEE IAD 到 线程 组 中 。 像 MPI 程序 一 样 ， 使 用 归 约 操作 将 部 分 和 归 约 为 一 个 全 局 结果 。 

#include <stdio.h> 


#include <math.h> 
#include <omp.h> 


int main () { 
int num_steps = 1000000; 
double pi, step, sum = 0.0; 
step = 1.0/(double) num_steps; 
#pragma omp parallel reduction(+:sum) 
1 
int i, id = omp get thread num(); 


int numthreads = omp get num, threads(); 
double x; 


for (i=id;i< num stéps; i+=numthreads){ 
x = (i*0.5)*step; 
sum += + 4.0/(1.0*x*x); 


) 
) // end of parallel region 
pi = step * sum; 
printf("\n pi is %1f\n",pi); 
return 0; 





5-6 利用 梯形 规则 积分 的 OpenMP 并 行程 序 ， 使 用 了 同 图 5-5 一 样 的 SPMD 算法 
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分 子 动力 学 。 本 节 使 用 分 子 动力 学 算法 作为 一 个 递归 示例 介绍 这 种 模式 语言 。 分 子 动力 
学 仿真 一 个 大 型 分 子 系统 的 运动 。 该 算法 使 用 显 式 时 间 步 方法 ， 即 计算 出 每 个 原子 在 每 个 时 
间 步 的 作用 力 ， 然 后 使 用 经 典 力学 中 的 标准 算法 来 计算 作用 力 是 如 何 改 变 原子 运动 的 。 

根据 目标 计算 机 系统 和 程序 的 使 用 意图 ， 这 个 算法 有 多 种 实现 方式 ， 因 此 该 算法 对 说 明 
并 行 算法 中 的 关键 概念 是 非常 理想 的 。 在 本 章 的 讨论 中 ， 我 们 将 采用 [Mat95] 中 的 方法 ， 并 
假设 : @ 程 序 已 有 串 行 版 本 ; @ 有 一 个 既 可 以 串 行 执行 也 可 以 并 行 执行 的 程序 ， 这 点 很 重要 
国 目 标 计算 机 系统 是 一 个 由 标准 以 太 网 LAN 连接 的 小 型 集群 。[PH95] 中 讨论 了 一 个 可 在 大 
规模 并 行 计算 机 系统 中 运行 并 具有 高 可 扩展 性 的 算法 。 

该 算法 的 核心 算法 和 伪 代 码 ， 见 3.1.3 节 ， 这 里 将 不 再 重复 讨论 。 图 5-7 提供 了 该 算法 伪 
代码 的 一 个 副本 。 


Int const N // number of atoms 


Array of Real :: atoms (3,N) //3D coordinates 

Array of Real :: velocities (3,N) //velocity vector 
Array of Real :: forces (3,N) //force in each dimension 
Array of List :: neighbors(N) //atoms in cutoff volume 


loop over time steps 

initialize forces (N, Forces) 

if(time to update neighbor list) 

neighbor list (N, Atoms, neighbors) 

end if 

vibrational forces (N, atoms, forces) 

rotational, forces (N, atoms, forces) 

non bonded forces (N, atoms, neighbors, forces) 

update atom positions, and, velocities( 

N, atoms, velocities, forces) 

physical_properties ( ... Lots of stuff ... ) 

end loop 





图 5-7 分 子 动力 学 示例 伪 代 码 。 这 个 伪 代 码 和 之 前 讨论 的 版 本 非常 相似 ,但 包含 了 少数 特别 的 细节 。 
为 了 支持 更 详细 的 伪 代 码 示例 ， 初 始 化 作用 力 数组 的 函数 调用 被 显 式 化 。 同 时 ， 邻 居 列 表 仅 
被 偶尔 更 新 的 事实 也 被 显 式 化 了 


该 并 行 算法 在 第 3 章 和 第 4 章 的 几 种 模式 中 都 讨论 过 ， 要 点 如 下 。 

e non_bonded force 计算 是 主要 的 时 间 开 销 。 

e 计算 non bonded force 时 ， 每 个 原子 与 其 他 原子 都 存在 潜在 交互 。 因 此 ， 每 个 
UE 需要 访问 全 局 原子 位 置 数 组 。 此 外 ， 根 据 牛 顿 第 三 定律 ， 每 个 UE 将 分 别 求 取 对 整 
个 作用 力 数 组 的 贡献 《 见 3.6 节 的 示例 )。 

e 集中 于 一 个 特定 原子 所 需要 的 计算 是 分 解 MD 问题 任务 的 一 种 方式 。 也 就 是 说 ， 我 们 
可 以 通过 将 原子 分 配给 UE 来 并 行 化 这 个 问题 ( 见 3.2 节 的 示例 )。 

假设 算法 的 目标 计算 机 系统 是 一 个 小 型 集群 ， 根 据 第 一 点 ， 我 们 仅 并 行 化 作用 力 的 计算 。 

对 于 并 行 计算 来 说 ， 小 型 集群 的 网 速 较 慢 ， 并 且 根 据 第 2) 点 中 提 到 的 数据 依赖 性 ， 我 们 将 : 

e 在 每 个 节点 上 存储 全 局 作用 力 数组 和 坐标 数组 的 一 个 副本 。 

e 每 个 UE 元 余地 更 新 每 个 原子 的 新 位 置 和 速度 〈 相 对 于 并 行 计算 这 些 数据 并 进行 通信 ， 
元 余 计 算 要 廉价 得 多 )。 
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e 每 个 UE 计算 它 对 作用 力 数 组 的 贡献 ， 然 后 将 UE 的 贡献 归 约 进 在 每 个 UE 上 复制 的 


单个 全 局 作用 力 数组 。 


这 个 算法 是 对 串 行 算法 的 一 个 简单 转换 。SPMD 程序 的 伪 代 码 如 图 5-8 所 示 。 与 任何 
MPI 程序 一 样 ，MPI 头 文件 位 于 程序 的 顶部 。 初 始 化 MPI 环境 ， 并 且 ID 与 MPI 进程 的 秩 相 


关联 。 


#include <mpi.h> 


Int const N // number of atoms 
Int const LN // maximum number of atoms assigned to a UE 


Int ID // an ID for each UE 
Int num_UEs // the number of UEs in the parallel computation 


Array of Real :: atoms (3,N) //3D coordinates 

Array of Real :: velocities (3,N) //velocity vector 

Array of Real :: forces (3,N) //force in each dimension 
Array of Real :: final forces(3,N) //globally summed force 
Array of List :: neighbors(LN) //atoms in cutoff volume 
Array of Int :: local atoms(LN) //atoms for this UE 


ID = 0 // default ID (used by the serial code) 
num UEs = 1 // default num UEs (used by the serial code) 


MPI Init() 


MPI,. Comm, size(MPI COMM, WORLD, &ID) 
MPI Comm, rank(MPI COMM. WORLD, &num, UEs) 


loop over time steps 


initialize forces (N, forces, final forces) 
if(time to update neighbor list) 
neighbor list (N, LN, atoms, neighbors) 


end if 


vibrational forces (N, LN, local atoms, atoms, forces) 
rotational forces (N, LN, local atoms, atoms, forces) 
non. bonded, forces (N, LN, atoms, local atoms, neighbors, 


forces) 


MPI.All reduceíforces, final forces, 3*N, MPI REAL, 
MPI SUM, MPI COMM. WORLD) 


update, atom, positions, and velocities( 
N, atoms, velocities, final. forces) 
physical.properties ( ... Lots of stuff ... ) 
end loop 


MPI Finalize() 





图 5-8 SPMD 分 子 动力 学 MPI 程序 的 伪 代 码 


该 算法 仅 对 串 行 函数 作 了 少量 改动 。 第 一 ， 定 义 一 个 用 于 存储 全 局 作用 力 的 数组 final | 
forces， 以 更 新 原子 位 置 和 速度 。 第 二 ， 创 建 一 个 列表 ， 包 含 所 有 分 配给 UE 的 原子 ， 该 列表 
将 传递 给 任何 将 要 并 行 执行 的 函数 。 最 后 ， 修 改 neighbor 1ist， 仅 存储 分 配给 UE 的 原子 。 


最 后 ， 在 每 一 个 将 要 并 行 执行 
作用 于 本 地 原子 列表 的 循环 所 代替 。 


( 作用 力 计算 ) 的 函数 的 内 部 ， 作 用 于 atoms 上 的 循环 被 


图 5-9 给 出 了 关于 这 些 简单 改变 的 代码 示例 。 这 个 示例 几乎 与 在 4.4 节 中 讨论 的 串 行 版 
本 一 致 。 相 对 于 前 面 的 讨论 ， 主 要 改变 如 下 。 


“t” Kit Ela 97 


function non_bonded_forces (N, LN, atoms, local_atoms, 
neighbors, Forces) 


Int N // number of atoms 
Int LN // maximum number of atoms assigned to a UE 


Array of Real :: atoms (3,N) //3D coordinates 

Array of Real :: forces (3,N) //force in each dimension 
Array of List :: neighbors(LN) //atoms in cutoff volume 
Array of Int :: local atoms(LN) //atoms assigned to this UE 
real :: forceX, forceY, forceZ 


loop [i] over local atoms 


loop [jl over neighbors(i) 
forceX = non, bond force(atoms(1,i), atoms(1,j)) 
forceY = non, bond, force(atoms(2,i), atoms(2,j)) 
forceZ = non bond force(atoms(3,i), atoms(3,j)) 
force{1,i) += forceX; force{1,j) -= forceX; 
force(2,i) += forceY; force{2,j) -= forceY; 
force{3,i) += forceZ; force{3,j) -= forceZ; 

end loop [j] 


end loop [i] 
end function non_bonded_forces 





图 5-9 典型 并 行 分 子 动力 学 代码 中 nonbounded 计算 的 伪 代 码 。 这 段 代码 几乎 与 图 4-4 所 示 函 数 的 串 行 
版 本 一 致 。 仅 有 的 改变 是 定义 了 一 个 新 的 整 型 数组 1ocal_atoms ， 用 于 存储 分 配给 该 UE 的 
原子 索引 。 我 们 也 假设 创建 的 邻居 列表 也 仅 存 储 分 配给 该 UE 的 原子 。 为 了 给 这 些 数组 分 配 空 
间 ， 需 要 添加 一 个 参数 LN， 表 示 可 能 分 配给 单个 UE 的 最 大 原子 数目 


e 增加 了 一 个 新 数组 ， 用 于 存储 分 配给 该 UE 的 原子 的 索引 。 这 个 数组 的 长 度 为 LN，LN 
为 可 能 分 配给 单个 UE 的 最 大 原子 数目 。 

e 作用 于 所 有 原子 的 循环 被 作用 于 local atoms 列表 元 素 的 循环 所 代替 。 

e 假设 邻居 列表 已 被 修改 ， 对 应 于 local atoms 列表 中 的 原子 。 

通过 将 LN 设置 为 N， 并 将 整个 原子 索引 集合 放置 到 local atoms 中 ， 该 代码 可 修改 
为 这 个 程序 的 一 个 串 行 版 本 。 这 个 特征 符合 其 中 一 个 设计 目标 : 存在 一 份 源 代码 ， 既 可 以 串 
行 执 行 ， 也 可 以 并 行 执行 。 

这 个 算法 的 关键 是 函数 中 邻居 列表 的 计算 。 邻 居 列 表 困 数 包含 一 个 作用 于 原子 的 循环 。 
对 于 每 个 原子 i ， 有 一 个 作用 于 其 他 所 有 原子 的 循环 和 测试 ， 以 确定 哪些 原子 是 原子 i 的 邻 
居 。 这 些 邻 居 原 子 的 索引 保存 在 neighbors (一 个 关于 列表 的 列表 ) 中 。 伪 代码 如 图 5-10 
所 示 。 


function neighbor (N, LN, ID, cutoff, atoms, local_atoms, 
neighbors) 


Int N // number of atoms 
Int LN // maz number of atoms assigned to a UE 
Real cutoff // radius of sphere defining neighborhood 





图 5-10 邻居 列表 计算 的 伪 代 码 。 对 于 每 个 原子 1， 半径 为 cutoff 的 球形 范围 内 的 所 有 原子 的 索引 都 
被 添加 到 原子 i 的 邻居 列表 中 。 注 意 ， 第 二 层 循环 仅 考 虑 了 索引 大 于 i 的 原子 ， 这 是 因为 根据 
牛顿 第 三 定律 ， 作 用 力 是 相互 的 ， 原 子 i 对 原子 j 的 作用 力 是 原子 3 对 原子 作用 力 的 负数 
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Array of Real :: atoms (3,N) //3D coordinates 

Array of List :: neighbors(LN) //atoms in cutoff volume 
Array of Int :: local_atoms(LN) //atoms assigned to this UE 
real :: dist_squ 


initialize_lists (local_atoms, neighbors) 
loop [i] over atoms on UE //split loop iterations among UEs 


add_to_list (i, local_atoms) 
loop [j] over atoms greater than i 


dist_squ = square(atom(1,i)-atom(1,j)) + 
square(atom(2,i)-atom(2,j)) + 
square (atom(3,i)-atom(3,j)) 

if(dist_squ < (cutoff * cutoff)) 

add_to_list (j, neighbors(i)) 

end if 

end loop [j] 


end loop [i] 
end function neighbors 





图 5-10 (X) 
UE 间 进 行 分 配 的 并 行 逻 辑 位 于 图 5-10 的 单个 循环 中 。 


loop [i] over atoms on UE //split loop iterations among UEs 
add_to_list (i, local_atoms) 


该 循环 在 UE 间 的 划分 方式 依赖 于 具体 的 编程 环境 。 对 于 MPI 来 说 ， 一 种 非常 好 的 方式 
是 图 5-5 讨论 的 周期 分 配 。 
for (i=id;i<number_of_atoms; i+= number_of_UEs){ 


add_to_list (i, local_atoms) 


} 


通过 创建 一 个 owner-computes 过 滤器 [Mat95]， 就 可 以 引入 一 个 更 为 复杂 的 分 配方 式 ， 
甚至 可 以 是 动态 分 配方 式 。owner-computes 过 滤器 提供 了 一 种 灵活 且 可 重用 的 调度 机 制 将 循 
环 迭 代 映 射 到 UE 上 。 该 过 滤器 是 关于 ID 和 循环 迭代 的 一 个 布尔 函数 。 函 数 的 值 依赖 于 UE 
是 否 “ 拥 有 ”循环 的 一 个 特定 迭代 。 例 如 ， 在 分 子 动力 学 程序 中 ， 把 owner-computes 函数 的 
调用 添加 到 一 个 作用 于 原子 的 并 行 循环 的 项 部 。 


for (i-0;i«number of atoms; i++){ 
if !'(is owner (i)) break 


add to list (i, local atoms) 


为 支持 并 行 性 的 表达 ， 不 需要 再 对 循环 做 其 他 改变 。 如 果 管理 循环 的 逻辑 是 复杂 的 ， 这 
种 将 循环 迭代 分 配给 UE 的 方法 不 需要 改变 这 个 逻辑 ， 并 且 索 引 划分 逻辑 非常 清晰 地 位 地 于 
源 代码 的 某 个 位 置 。 当 几 个 应 当 采 用 相同 方式 调度 的 循环 在 程序 中 展开 时 ， 会 产生 另 一 个 优 
点 。 例 如 ， 在 一 台 NUMA 机 器 或 者 一 个 集群 上 ， 分 配给 一 个 PE 的 数据 尽 可 能 地 多 次 使 用 是 
非常 重要 的 。 通 常 ， 这 意味 着 在 多 个 循环 中 重用 相同 的 调度 机 制 。 

这 种 方法 在 [Mat95] 中 的 分 子 动力 学 应 用 程序 中 有 更 加 详细 的 描述 。 在 这 个 应 用 程序 中 ， 
这 是 非常 重要 的 ， 这 是 因为 邻居 列表 生成 所 产生 的 工作 负载 可 能 无 法 精确 反映 各 种 作用 力 的 
计算 负载 。 如 果 能 非常 容易 地 收集 关于 每 个 原子 所 需要 时 间 的 信息 ， 并 重新 调整 1s owner 
函数 ， 就 可 以 产生 更 优 的 负载 调度 。 


“Lit” RHE 99 


这 些 SPMD 算法 同样 适用 于 OpenMP EHE. ATA BS AE PRR AZ, BA DEBE 
序 以 迎合 OpenMP 程序 的 需求 ， 如 图 5-11 所 示 。 


#include <omp.h> 
Int const N // number of atoms 
Int const LN // mazimum number of atoms assigned to a UE 
Int ID // an ID for each UE 
Int num_UEs // number of UEs in the parallel computation 
Array of Real :: atoms(3,N) //3D coordinates 
Array of Real :: velocities(3,N) //welocity vector 
Array of Real :: forces(3,N) //force in each dim 
Array of List :: neighbors(LN) //atoms in cutoff volume 
Array of Int :: local_atoms(LN) //atoms for this UE 


ID = 0 
num UEs = 1 


fpragma omp parallel private (ID, num UEs, local atoms, forces) { 
ID = omp get thread num() 
num UEs = omp get num threads() 


loop over time steps 
initialize forces (N, forces, final forces) 
if(time to update neighbor list) 
neighbor list (N, LN, atoms, neighbors) 
end if 
vibrational forces (N, LN, local atoms, atoms, forces) 
rotational forces (N, LN, local atoms, atoms, forces) 
non, bonded, forces (N, LN, atoms, local_atoms, 
neighbors, forces) 
#pragma critical 
final forces *- forces 
barrier 


#pragma single 
1 


update atom, positions and velocities( 
N, atoms, velocities, forces) 
physical properties ( ... Lots of stuff ... ) 
) // remember, the end of a single implies a barrier 


end loop 


) // end of OpenMP parallel region 





图 5-11 分 子 动力 学 OpenMP 并 行程 序 的 伪 代 码 
作用 于 时 间 的 循环 被 放置 在 一 个 并 行 区 域内 。 这 个 并 行 区 域 由 parallel prama 语句 创建 。 


#pragma omp parallel private (ID, num UEs, local atoms, forces) 


该 pragma 语句 创建 了 一 个 线程 组 ， 线 程 组 的 每 个 成 员 都 执行 这 个 作用 于 时 间 的 循环 。 
private 语句 将 对 应 变量 复制 到 每 一 个 UE 中 。 归 约 操作 在 一 个 临界 区 域 进行 ; 


#pragma critical 
final_forces += forces 


不 能 在 并 行 区 域 使 用 reduction 子 句 ， 因 为 直到 并 行 区 域 的 操作 全 部 完成 后 ， 才 能 得 
到 这 个 结果 。 正 确 结果 在 临界 区 内 生成 ,但 是 算法 的 运行 时 间 同 UE 的 数目 呈 线 性 关系 。 因 
此 ， 相 对 于 第 6 章 讨论 的 其 他 归 约 算法 ,这 种 方法 不 是 最 优 的 。 但 是 在 具有 适量 数目 处 理 器 
的 计算 机 系统 中 ， 临 界 区 的 归 约 操作 可 以 很 好 地 工作 。 
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在 临界 区 之 后 需要 一 个 barrier 操作 ， 以 确保 归 约 操作 在 原子 位 置 和 速度 信息 更 新 之 前 完 
成 。 然 后 使 用 OpenMP 的 single 结构 引发 一 个 UE 进行 更 新 工作 。 在 single 语句 之 后 不 
需要 barrier 操作 ， 因 为 single 构造 本 身 隐 含 着 一 个 barrier 操作 。 用 于 计算 作用 力 的 函数 在 
OpenMP 和 MPI 程序 版 本 中 未 发 生变 化 。 

Mandelbrot 集合 计算 。 本 节 将 讨论 知名 的 Mandelbrot 集合 [Dou86]。 该 算法 作为 一 个 任 
务 并 行 问题 ， 在 4.4 节 中 ,已 经 对 该 算法 及 其 并 行 化 进行 了 讨论 。 每 个 像素 基于 式 ( 5-4 ) 的 
二 次 递归 关系 进行 着 色 。 | 

Za-7Z;*C (5-4) 

式 中 ，C 和 2Z 是 复数 ， 递 归 从 Zr=C 开始 。 在 垂直 轴 C-1.5 ~ 1.5) 绘制 C 的 虚 部 ， 在 水 
平 轴 (-1 ~ 2) 绘制 C 的 实 部 。 如 果 递 归 关系 收敛 于 一 个 稳定 值 ， 则 每 个 像素 的 颜色 都 是 黑 
色 的 ; APM, 根据 递归 关系 的 发 散 速 度 对 像素 进行 着 色 。 

在 4.4 节 描 述 的 并 行 算法 中 ， 任 务 粒度 为 图 像 中 每 一 行 的 计算 。 当 任务 数目 多 于 UE 数目 
时 ， 送 态 调 度 策略 应 该 可 以 在 节点 间 实 现 高 效 的 静态 负载 均衡 。 下 面 将 介绍 在 MPI 中 如 何 使 
用 SPMD 模式 来 求解 这 个 问题 。 

图 5-12 为 该 算法 的 串 行 版 本 伪 代 码 。 该 算法 令 人 感 兴趣 的 部 分 隐藏 在 comput_Row() 
例 程 中 。 因 为 这 个 函数 的 具体 实现 细节 对 于 理解 并 行 计算 来 说 并 不 重要 ， 所 以 这 里 将 不 显示 
它们 。 对 于 一 行 中 的 每 个 点 ， 需 要 进行 如 下 处 理 。 

Int const Nrows // number of rows in the image 


Int const RowSize // number of pizels in a row 
Int const M // number of colors in color map 


Real :: conv // divergence rate for a pizel 

Array of Int :: color_map (M) // pizel color based on conv rate 
Array of Int :: row (RowSize) // Pizels to draw 

Array of Real :: ranges(2) // ranges in X and Y dimensions 


manage user input(ranges, color map) // input ranges, color map 
initialize_graphics(RowSize, Nrows, M, ranges, color_map) 


for (int i = 0; i«Nrows; it+){ 
compute_Row (RowSize, ranges, row) 


graph(i, RowSize, M, color_map, ranges, row) 





) // end loop [i] over rows 


图 5-12 Mandelbrot 集合 生成 程序 的 串 行 版 本 伪 代 码 
e 每 个 像素 对 应 于 二 次 递归 关系 式 中 < 的 一 个 值 ， 我 们 将 基于 输入 range 和 像素 的 索引 


来 计算 。 
e 计算 递归 项 ， 并 根据 它 是 否 收敛 于 一 个 固定 值 来 设置 像素 的 值 。 如 果 它 发 散 ， 则 根据 
发 散 率 来 设置 像素 值 。 | 


计算 完毕 后 ， 绘 制 出 所 有 行 ， 从 而 绘制 出 著名 的 Mandelbrot 集合 。 标 记 像素 的 颜色 根据 
发 散 率 到 颜色 表 的 映射 来 确定 。 

如 图 5-13 所 示 ， 该 算法 的 SPMD 程序 非常 简单 。 我 们 假设 目标 计算 机 系统 是 某 种 类 型 的 
分 布 式 存储 器 计算 机 ( 一 个 集群 或 者 一 个 MPP )， 并 且 有 一 台 机 器 作为 专门 的 节点 用 于 图 形 
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交互 ， 其 他 节点 用 于 计算 。 假 设 图 形 节 点 的 秩 为 0。 


#include <mpi.h> 
Int const Nrows // number of rows in the image 
Int const RowSize // number of pizels in a row 
Int const M // number of colors in color map 
Real :: conv // divergence rate for a pizel 
Array of Int :: color map (M) // pizel color based on conv rate 
Array of Int :: row (RowSize) // Pizels to draw 
Array of Real :: ranges(2) // ranges in X and Y dimensions 
Int :: inRowSize // size of received row 
Int :: ID // ID of each UE (process) 
Int :: num_UEs // number of UEs (processes) 
Int :: nworkers // number of UEs computing rows 
MPI Status :: stat // MPI status parameter 


MPI Init() 
MPI Comm size(MPI COMM WORLD, &ID) 
MPI. Comm rank(MPI COMM WORLD, &num_UEs) 


// Algorithm requires at least tuo UEs since ue are 
// going to dedicate one to graphics 
if (num _UEs < 2) MPI.Abort(MPI COMM WORLD, 1) 


if (ID == 0 ){ 
manage_user_input(ranges, color_map) // input ranges, color map 
initialize_graphics(RowSize, Nrows, M, ranges, color_map) 


} 


// Broadcast data from rank 0 process to all other processes 
MPI_Bcast (ranges, 2, MPI REAL, 0, MPI.COMM WORLD); 
if (ID == 0) { // UE with rank 0 does graphics 
for (int i = 0; i«Nrows; i++){ 
MPI Recv(row, &inRowSize, MPI REAL, MPI. ANY, SOURCE, 
MPI ANY, TAG, MPI COMM WORLD, &stat) 
row index = stat(MPI TAG) 
graph(row index, RowSize, M, color map, ranges, Row) 
“ } // end loop over i 
else ( // The other UEs compute the rows 
nworkers = num UEs - 1 
for (int i = ID-1; i<Nrows; i+=nworkers) { 
compute Row (RowSize, ranges, row) 
MPI Send (row, RowSize, MPI REAL, O, i, MPI. COMM WORLD); 
) // end loop over i 
} 
MPI_Finalize() 





图 5-13 图 5-12 中 Mandelbrot 集合 生成 程序 的 并 行 MPI 版 本 伪 代 码 


如 附录 BETE, MPI 程序 从 通常 的 MPI 初始 化 开始 。 秩 为 0 的 UE 获取 用 户 输入 ， 然 后 
将 其 广播 到 其 他 UE 中 。 接 着 程序 循环 处 理 图 像 行 ， 当 计算 完成 后 ， 接 收 计 算 结 果 并 绘制 成 
图 像 。 该 程序 使 用 周期 分 配 算法 将 循环 迁 代 分 配给 所 有 秩 不 等 于 0 的 其 他 UE， 当 计算 完 一 行 
后 ， 将 结果 发 送 给 图 形 UE. 

知名 应 用 。 大 量 MPI 程序 应 用 这 种 模式 。 对 SPMD 程序 和 示例 的 教学 式 讨 论 可 以 在 多 
种 MPI 教 科 书 中 找到 ， 如 [GLS99] 和 [Pac96]。 应 用 这 种 模式 的 代表 性 应 用 包括 量子 化 学 
[WSG95]、 有 限 元 方法 [ABKPO3, KLK*03] 以 及 3D 空气 动力 学 [MHC'99]。 

6. 相关 模式 


SPMD 模式 非常 常用 ， 可 用 于 实现 其 他 模式 。 这 种 模式 的 许多 示例 与 循环 并 行 模 式 紧密 
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相关 。 几 何 分 解 模 式 的 大 多 数 应 用 也 使 用 SPMD 模式 。 分 布 式 数 组 模式 实际 上 是 使 用 SPMD |142 


i te vu mo E 


模式 为 程序 分 配 数据 的 一 种 特例 。 
55 主 / 从 模式 


1. 问题 ， 

当 需 要 在 UE 间 动 态 维持 任务 负载 均衡 时 ， 该 如 何 组 织 程序 ? 

2. d 

算法 的 并 行 效率 受 并 行 开 销 、 串 行 部 分 和 负载 均衡 影响 。 一 个 优秀 的 并 行 算法 必须 处 理 

好 这 些 方面 。 但 有 时 负载 平衡 难以 实现 ， 甚 至 负载 均衡 设计 会 占 算法 设计 的 主导 地 位 。 这 类 
问题 通常 具有 下 面 一 种 或 多 种 特征 。 
e 与 任务 相关 的 工作 负载 是 高 度 变 化 并 且 不 可 预测 的 。 如 果 工 作 负载 可 预测 ， 则 它们 
可 以 分 割 为 开销 相等 的 多 个 部 分 ， 然 后 静态 分 配给 UE， 并 使 用 SPMD 模式 或 者 循环 
并 行 模式 进行 并 行 化 。 但 如 果 它 们 是 不 可 预测 的 ， 则 静态 分 配 不 会 产生 最 优 的 负载 
平衡 。 
e 程序 中 计算 密集 部 分 的 程序 结构 不 能 映射 到 简单 循环 。 如 果 算 法 是 基于 循环 的 ， 则 通 
过 周期 性 分 配 循 环 迭 代 或 者 使 用 一 种 动态 调度 策略 ， 通 常 可 以 获得 统计 学 意义 上 接近 
于 最 优 的 静态 负载 均衡 ( 例如， 在 OpenMP 中 ,使 用 schedule (dynamic) 从 句 )。 
但 车 程序 中 的 控制 结构 比 简单 循环 复杂 ， 则 需要 更 通用 的 负载 均衡 方法 。 
e 并 行 计算 可 用 PE 的 计算 能 力 在 整个 计算 期 间 不 同 ， 随 计算 的 进展 而 变化 ,或 者 是 不 
可 预测 的 。 
某 些 情况 下 ， 如 果 任 务 紧 耦合 (它们 需要 通信 或 者 读 写 共享 数据 ) 并 且 必 须 在 同一 时 间 
内 活跃 ， 主 / 从 模式 是 不 可 行 的 : 程序 员 别 无 选择 ， 只 能 按照 大 小 或 者 分 组 将 任务 动态 地 CB 
在 计算 期 间 ) 分 配给 UE， 以 获得 一 种 高 效 的 负载 平衡 。 然 而 ， 这 种 方式 实现 起 来 可 能 非常 困 
难 ， 如 果 不 仔细 ， 很 可 能 会 增加 大 量 的 并 行 开 销 。 

如 果 任 务 相互 独立 ， 或 者 任务 依赖 性 可 以 通过 某 种 方法 排除 在 并 行 计算 之 外 ， 那 么 程序 
员 在 平衡 负载 时 ， 就 具有 极 大 的 灵活 性 。 可 能 会 使 负载 平衡 自动 完成 ， 这 也 是 这 种 模式 要 解 
决 的 问题 。 

当 任 务 间 不 存在 依赖 性 时 ( 易 并 行 问题 )， 这 种 模式 特别 适用 于 任务 并 行 模式 问题 。 对 于 

[143] 任务 可 以 间接 映射 到 UE 上 的 情形 ， 也 可 以 使 用 派生 /聚合 模式 。 

3. 面临 的 问题 

e 每 一 个 任务 的 工作 量 ， 以 及 在 某 些 情形 下 其 至 PE 的 计算 能 力 都 是 不 可 预知 的 。 在 这 
种 情况 下 ， 显 式 预 测 任 何 给 定 任 务 的 运行 时 间 是 不 可 能 的 。 因 此 ,平衡 均衡 设计 必须 
独立 于 给 定 的 任务 。 

e 负载 均衡 操作 可 能 会 带 来 非常 昂贵 的 通信 开销 。 这 就 意味 着 任务 调度 应 当 围 绕 着 较 小 
数目 的 大 任务 进行 。 但 是 ， 大 任务 减少 了 可 在 PE 间 进 行 分 配 的 任务 数目 ， 这 又 增加 
获得 良好 负载 平衡 的 难度 。 

e 最 佳 负 载 均衡 算法 可 能 非常 复杂 而 且 需 要 变更 程序 ， 这 个 过 程 也 非常 容易 出 错 。 程 序 
员 需 要 在 最 佳 负载 分 配方 式 和 代码 易 维护 性 之 间 进 行 平衡 。 

4. 解决 方案 

面 对 这 些 问题 ， 著 名 的 主 /从 模式 是 一 种 很 好 的 解决 方案 。 图 5-14 对 这 种 模式 进行 了 

简要 说 明 。 这 种 解决 方案 由 两 个 逻辑 元 素 组 成 : 一 个 master， 一 个 或 者 多 个 worker 实例 。 
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master 初始 化 计算 并 设 定 问题 ， 并 创建 任务 包 。 在 经 典 算 法 中 ， 在 worker 任务 完成 之 前 ， 









设 定 问题 










d o sis E 


Ce 


K] 5-14 主 / 从 模式 的 两 个 基本 元 素 是 master Fil worker, master 只 有 一 个 ， 但 worker 可 以 有 若干 个 。 从 
逻辑 上 讲 ，master 设 定 计算 ,管理 任务 包 。 各 个 worker 从 任务 包 中 获取 任务 ， 执 行 完成 后 ， 返 
同 任务 包 获 取 更 多 任务 。 这 个 过 程 一 直 持 续 到 终止 条 件 满足 为 止 


master 创建 任务 包 的 一 种 简单 方法 是 利用 5.9 节 描 述 的 单个 共享 队列 。 当 然 ， 也 存在 许 
多 其 他 机 制 来 创建 一 个 全 局 共享 结构 ， 可 以 在 其 中 插入 或 者 移 除 任务 。 具 体 实 例 包 括 : 元 组 
空间 [CG91、FHA99]、 分 布 式 队列 或 单调 计数 器 ( 当 任 务 可 以 用 一 组 连续 的 整数 来 指定 时 )。 

同时 ， 每 个 worker 都 会 进入 一 个 循环 。 在 循环 顶层 ，worker 从 任务 包 中 取出 一 个 任务 ， 
然后 处 理 任务 ， 并 检测 是 否 还 有 其 他 任务 : 如 果 有 ， 则 获取 下 一 个 任务 。 直 到 满足 终止 条 件 ， 
这 个 过 程 将 持续 下 去 。 终 止 条 件 满足 后 ，master 将 被 唤醒 ， 收 集结 果 ， 并 终止 计算 。 

主 / 从 算法 可 自动 完成 负载 均衡 。 因 此 ， 程 序 员 无 法 显 式 决 定 哪 一 个 任务 将 分 配给 哪 一 
个 UE。 这 个 决定 将 由 master 动态 制定 ， 这 是 因为 在 worker 完成 一 个 任务 后 ， 将 访问 任务 包 ， 
以 获得 下 一 个 工作 。 

讨论 。 只 要 任务 数目 远 超 worker 数目 ， 并 且 每 个 任务 的 开销 差别 不 是 很 大 ， 就 不 会 出 现 
某 些 worker 的 工作 时 间 比 其 他 worker 长 很 多 的 情况 。 在 这 种 情况 下 ， 主 /从 算法 具有 很 好 的 
可 扩展 性 。 

任务 包 管 理 需要 全 局 通信 ， 全 局 通信 开销 会 影响 算法 效率 。 然 而 ， 当 与 任务 相关 的 工作 
开销 远大 于 任务 管理 开销 时 ， 这 将 不 是 问题 。 在 某 些 情形 中 ， 设 计 者 可 能 需要 增加 每 个 任务 
的 大 小 ， 以 降低 访问 全 局 任务 包 所 需要 的 时 间 。 

主 / 从 模式 不 与 任何 特定 的 硬件 环境 捆绑 在 一 起 。 应 用 这 种 模式 的 程序 能 够 在 从 集群 到 
SMP 的 所 有 机 需 上 工作 得 很 好 。 当 然 ， 如 果 编 程 环境 支持 任务 包 管 理 ， 将 会 非常 有 意义 。 

检测 工作 是 否 完 成 。 编 写 主 / 从 模式 程序 的 一 个 挑战 是 正确 确定 所 有 任务 是 否 完成 。 这 
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个 任务 既 需 要 高 效 完 成 ， 同 时 也 必须 保证 所 有 的 工作 在 worker 终止 之 前 全 部 完成 。 


最 简单 情况 下 ， 在 worker 开始 工作 之 前 ， 把 所 有 任务 放置 在 任务 包 中 。 然 后 每 个 任务 
依次 被 worker 处 理 ， 直 到 任务 包 为 空 为 止 ， 此 时 worker 终止 工作 。 

另 一 种 方法 是 使 用 队列 实现 任务 包 ， 安 排 master 或 者 一 个 worker 检测 所 期 望 的 终止 
条 件 。 当 检测 到 终止 条 件 时 ,创建 一 个 poison pil， 即 一 个 特殊 的 任务 ， 用 于 通知 
worker 终止 工作 。 把 poison pill 放置 到 任务 包 中 ， 且 必须 保证 它 能 够 在 获取 下 一 个 任 
务 时 取出 。 根 据 共 享 任务 集 的 管理 方式 ， 可 能 需要 为 每 一 个 余下 的 worker 创建 一 个 
poison pill， 以 确保 所 有 的 worker 都 能 收 到 终止 条 件 。 

开始 时 无 法 确定 任务 集 的 问题 将 导致 很 严峻 的 挑战 。 例 如 ， 当 worker 可 以 向 任务 包 中 
添加 任务 时 ( 例如， 在 分 治 模式 的 应 用 程序 中 ) 将 发 生 这 种 情况 。 在 这 种 情况 下 ， 当 
worker 完成 一 个 任务 并 发 现任 务 包 为 空 时 ， 并 不 能 确定 有 没有 更 多 工作 要 做 。 这 是 因 
为 男 一 个 仍然 活跃 的 worker 可 能 会 产生 新 任务 。 因 此 ， 必 须 确保 任务 包 为 空 并 且 所 有 
的 worker 结束 工作 。 更 进一步 讲 ， 在 基于 异步 消息 传递 的 系统 中 ， 必 须 确定 系统 中 没 
有 正在 传递 的 消息 。 因 为 在 这 些 消 息 到 达 后 ， 可 能 会 导致 新 任务 的 创建 。 幸 运 的 是 ， 
许多 著名 算法 解决 了 这 个 问题 。 例 如 ， 假 设 任务 在 概念 上 被 组 织 为 一 棵 树 ， 其 中 根 是 
主任 务 ， 任 务 的 孩子 是 它 所 生成 的 子 任务 。 当 一 个 任务 的 所 有 孩子 都 终止 后 ， 该 任务 
才 可 以 终止 。 当 主任 务 的 所 有 孩子 都 终止 时 ， 计 算 将 终止 。 在 [BT89、Mat87、DS80] 
中 描述 了 一 些 终止 检测 算法 。 


变 体 。 主 /从 模式 存在 几 种 变 体 。 因 为 这 种 模式 以 一 种 非常 简单 的 方式 实现 了 动态 负载 
均衡 ， 所 以 它 非常 流行 ， 特 别 是 在 易 并 行 问题 中 《如 在 易 并 行 模式 中 所 描述 的 一 样 )。 下 面 是 
一 些 常见 的 变 体 。 


master 创建 任务 后 ， 可 转变 为 一 个 worker。 当 不 需要 master 就 可 以 检测 到 终止 条 件 时 
( 即 任务 可 以 根据 任务 包 的 状态 检测 到 终止 条 件 )， 这 种 技术 非常 有 效 。 

当 并 发 任务 可 以 映射 为 一 个 简单 循环 时 ，master 可 以 是 隐 式 的 。 并 且 该 模式 可 以 实现 
为 动态 分 配 的 迭代 循环 (如 4.4 节 所 述 )。 | 

集中 式 任务 队列 可 能 会 成 为 瓶颈 ， 特 别 是 在 一 个 分 布 式 存储 器 环境 中 。 基 于 随机 工作 
偷 取 的 方法 是 一 种 较 优 的 解决 方案 [FLR98]。 在 该 方法 中 ， 每 一 个 PE 维持 一 个 独立 
的 双向 任务 队列 ， 把 新 任务 放置 在 本 地 PE 任务 队列 的 前 端 。 当 一 个 任务 完成 时 ，PE 
从 本 地 任务 队列 的 前 端 移 除 一 个 子 问 题 。 如 果 本 地 任务 队列 为 空 ， 则 随机 选择 另 一 个 
PE， 并 “ 偷 取 ” 该 PE 任务 队列 后 端的 一 个 子 任务 。 如 果 这 个 队列 也 为 空 ， 则 随机 选 
择 为 外 一 个 PE 继续 尝试 。 这 种 技术 对 于 基于 分 治 模式 的 问题 特别 有 效 。 在 这 种 情形 
中 ， 队 列 后 端的 任务 是 较 早 插入 的 任务 ， 因 此 代表 较 大 的 子 问题 。 这 样 ， 这 种 方法 趋 
向 移动 较 大 的 子 问 题 ， 而 在 创建 子 问题 的 PE 上 处 理 粒 度 较 细 的 子 问题 。 这 种 方法 有 
助 于 负载 平衡 ， 并 且 降 低 了 在 较 深 的 递归 层 中 创建 小 任务 的 开销 。 

修改 主 /从 模式 ， 以 提供 较 好 的 容错 性 [BDK95]。master 需要 维持 两 个 队列 : 一 个 用 
于 存放 仍然 需要 分 配给 worker 的 任务 ， 另 一 个 用 于 存放 已 经 分 配给 worker 但 未 完成 
的 任务 。 在 第 一 个 队列 为 空 后 ，master 将 “未 完成 ”队列 中 多 余 的 任务 分 配给 它 。 因 
此 ， 如 果 一 个 worker 意外 终止 从 而 不 能 完成 它 的 任务 ， 另 外 一 个 worker 将 会 完成 这 
些 未 完成 的 任务 。 
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5. 示例 

我 们 将 从 一 个 简单 的 主 /从 问题 开始 ， 提 供 一 个 详细 示例 。 该 示例 在 程序 的 并 行 实现 中 使 
用 了 主 /从 模式 ， 以 生成 一 个 Mandelbrot 集合 。 另 外 ， 请 查看 5.9 节 的 示例 ， 该 部 分 通过 为 使 
用 派生 /聚合 模式 程序 开发 一 个 简单 Java 框架 的 主 /从 实现 ,演示 了 共享 队列 的 使 用 方式 。 

一 般 解 决 方案 。 主 / 从 模式 程序 的 关键 是 定义 存储 任务 包 的 数据 结构 。 本 节 的 代码 使 用 
任务 队列 。 如 图 $-15 所 示 ， 我 们 将 这 个 任务 队列 实现 为 共享 队列 模式 的 一 个 实例 。 

master 进程 初始 化 任务 队列 ， 并 用 整数 表示 任务 ; 然后 使 用 派生 / 聚合 模式 创建 worker 
进程 或 线程 ， 并 等 待 它们 完成 ; 当 这 些 进程 或 线程 完成 时 ，master 处 理 它们 生成 的 中 间 结 果 。 


Int const Ntasks // Number of tasks 
Int const Nworkers // Number of workers 


SharedQueue :: task_queue; // task queue 
SharedQueue :: global_results; // queue to hold results 


void master() 
void worker() 
// Create and initialize shared data structures 
task_queue = new SharedQueue() 


global_results = new SharedQueue() 


for (int i= 0; i < N; i++) 
enqueue(task queue, i) 


// Create Nworkers threads erecuting function Worker() 
ForkJoin (Nworkers, Worker) 


consume the results (Ntasks) 





图 5-15 = /从 模式 程序 的 master 进程 。 假 设 存 在 一 个 共享 地 址 空间 ， 任 务 和 结果 队列 对 于 所 
有 UE 都 可 见 。 在 这 个 简单 版 本 中 ，master 进程 初始 化 队列 ， 启 动 worker， 等 待 所 有 
worker 完成 任务 ( ForkJoin 命令 启动 worker， 等 待 它 们 完成 任务 后 返回 )。 当 所 有 
worker 完成 任务 后 ，master 处 理 生成 的 中 间 结 果 ， 计 算 完 成 


如 图 5-16 所 示 ，worker 循环 处 理 任 务 ， 直 到 任务 队列 为 空 。 在 循环 的 每 次 迭代 中 ， 


worker 获取 任务 ， 完 成 所 指定 工作 ， 并 将 结果 存储 在 全 局 结果 队列 中 。 当 任务 队列 为 空 时 ， 
worker 终止 工作 。 


void worker() 


Int :: 4 
Result :: res 


while ('empty(task queue) { 
i = dequeue(task queue) 
res = do lots of work(i) 
enqueue(global results, res) 





图 5-16 主 /从 模式 程序 的 worker 进程 。 假 设 存在 一 个 共享 地 址 空间 使 task_queue fllglobal results 对 
master 和 所 有 worker 都 可 见 。worker 循环 处 理 task queue 中 的 任务 ， 当 task queue 为 空 时 退出 
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注意 ， 通 过 使 用 共享 队列 的 实例 ， 确 保 了 对 关键 共享 变量 (task_queue Ml global_ 
results ) 的 安全 访问 。 

Java 程序 可 使 用 线程 安全 队列 存储 被 一 组 线程 执行 的 Runnable 对 象 。 这 些 线程 的 运行 方 
式 和 前 面 描述 的 worker 线程 类 似 : 从 队列 中 移 除 一 个 Runnable 对 象 并 执行 其 run 方法 。Java 
2 1.5 的 java.util.concurrent 包 中 的 Executor 接口 提供 了 对 主 /从 模式 的 直接 支持 。 实 现 该 接口 
的 几 个 类 都 提供 了 execute 方法 ， 该 方法 将 会 获取 Runnable WAIT. RIL, ROL 
个 类 还 分 别提 供 了 管理 实际 参与 工作 的 Thread 对 象 的 几 种 不 同方 式 。ThreadPoolExecutor 
通过 使 用 固定 线程 池 执 行 命令 ， 从 而 实现 了 主 /从 模式 。 要 使 用 Executor， 程序 需 要 实例 化 一 
个 实现 这 个 接口 的 类 ， 这 通常 通过 调用 Executor 类 中 的 一 个 工厂 方法 来 实现 。 图 5-17 中 的 代 
码 构建 了 一 个 具有 num threads 个 线程 的 ThreadPoolExecutor。 这 些 线程 将 执行 放 在 一 
个 极 大 队列 中 的 Runnable 对 象 所 指定 的 任务 。 


/*create a ThreadPoolErecutor with an unbounded queue*/ 
Executor exec = new Executors.newFixedThreadPool (num_threads) ; 
图 5-17 ”实例 化 并 初始 化 一 个 ThreadPoolExecutor 


fill Executor 后 ， 可 以 将 Runnable 对 象 (其 run 方法 定义 了 任务 的 行为 ) 传递 给 
execute 方法 ， 该 方法 将 会 调度 该 Runnable 对 象 的 执行 。 例 如 ， 假 设 Runnable 对 象 关联 一 
个 可 变 任务 ， 则 对 于 前 面 定义 的 Executor, exec.execute (task) ; 语句 会 将 这 个 任务 放 
置 于 队列 中 ， 该 任务 最 终 将 被 该 Executor 的 一 个 worker 线程 所 执行 。 

主 / 从 模式 也 可 用 于 SPMD 和 MPI 程序， 只 是 维持 全 局 队列 更 具有 挑战 性 ， 但 总 体 算法 
相同 。 在 MPI 中 使 用 共享 队列 的 详细 描述 见 第 6 章 。 

Mandelbrot 集合 的 生成 。5.4 节 的 示例 详细 描述 了 Mandelbrot 集合 的 生成 算法 。 其 基本 
思想 是 利用 一 个 二 次 递归 关系 式 计算 复 平面 上 的 每 一 个 点 ， 并 根据 递归 关系 式 在 这 一 点 的 收 
敛 或 者 发 散 率 对 该 点 进行 着 色 。 复 平面 上 的 每 一 点 可 独立 计算 ， 因 此 这 个 问题 是 易 并 行 问题 
(参见 4.4 节 )。 | 

图 5-18 重新 给 出 了 该 问题 串 行 版 本 的 伪 代 码 (5.4 节 中 曾经 给 出 过 )。 该 程序 循环 处 理 图 
像 的 每 一 行 ， 对 每 一 行进 行 计算 和 显示 。 

Int const Nrows // number of rows in the image 


Int const RowSize // number of pixels in a row 
Int const M // number of colors in color map 


Real :: conv // divergence rate for a pizel 

Array of Int :: color_map (M) // pizel color based on Conv rate 
Array of Int :: row (RowSize) // Pizels to draw 

Array of real :: ranges(2) // ranges in X and Y dimensions 


manage user input(ranges, color_map) // input ranges, color map 
initialize_graphics(RowSize, Nrows, M, ranges, color_map) 


for (int i = 0; i<Nrows; i++){ 
compute_Row (RowSize, ranges, row) 
graph(i, RowSize, M, color_map, ranges, row) 


) // end loop [i] over rows 


图 5-18 Mandelbrot 集合 生成 程序 串 行 版 本 的 伪 代 码 
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对 于 同 构 集 群 或 轻 负 载 的 共享 内 存 多 处 理 器 计算 机 ， 基 于 SPMD 模式 或 循环 并 行 模式 
的 方法 是 最 高 效 的 。 然 而 ， 对 于 一 个 异 构 集群 或 一 个 给 众多 用 户 共享 的 多 处 理 器 计算 机 系统 
(PE 上 的 工作 负载 在 任意 时 间 内 不 可 预测 )， 主 / 从 模式 将 更 高 效 。 

基于 前 面 描述 的 高 级 结构 ， 我 们 构建 了 一 个 主 / 从 模式 的 并 行 Mandelbrot 程序 。Master 
将 负责 绘制 结果 。 在 有 些 问题 中 ，worker 的 运行 结果 会 相互 影响 。 因 此 ， 对 于 master 来 说 ， 
直到 所 有 worker 完成 运行 才 处 理 中 间 结 果 ， 这 一 点 是 非常 重要 的 。 然 而 ， 在 Mandelbrot zs 
例 中 ，worker 运行 结果 相互 独立 。 因 此 我 们 分 离 Fork 和 Join 操作 ，master 获得 worker 
的 运行 结果 后 ， 立 即 绘制 它们 。 在 Fork 操作 后 ，master 必须 等 待 结果 被 放置 到 global- 
results 队列 中 。 因 为 预先 知道 一 行 对 应 一 个 结果 ， 所 以 master 事先 知道 需要 取 多 少 个 结 
R, 并且 可 以 简单 地 用 循环 迭代 数量 表示 终止 条 件 。 当 所 有 结果 绘制 完成 之 后 ，master 在 
Join 函数 处 等 待 所 有 worker 完成 工作 ， 此 时 master 也 完成 了 工作 。 代 码 如 图 5-19 所 示 。 注 
意 ， 这 段 代码 与 前 面 描述 的 普通 情形 相似 。 不 同 之 处 是 ， 通 过 分 离 Fork 和 Join 操作 ， 重 
全 了 结果 的 处 理 与 计算 。 顾 名 思 义 ，Fork 启动 运行 指定 功能 的 UE， 而 Join 操作 使 master 
等 待 所 有 worker 彻底 终止 。 有 关 队 列 的 详情 ， 请 查看 5.7 节 。 


Int const Ntasks // number of tasks 
Int const Nworkers // number of workers 
Int const Nrows // number of rows in the image 
Int const RowSize // number of pizels in a row 
Int const M // number of colors in color map 
typedef Row :: struct of { 
int :: index 
array of int :: pixels (RowSize) 
} temp_row; 
Array of Int :: color map (M) // pixel color based on conv rate 
Array of Real :: ranges(2) // ranges in X and Y dimensions 
SharedQueue of Int :: task queue; // task queue 
SharedQueue of Row :: global results; // queue to hold results 


void master() 


void worker(); 


manage user, input(ranges, Color_map) // input ranges, color map 
initialize_graphics(RowSize, Nrows, M, ranges, color. map) 


// Create and initialize shared data structures 
task queue - new SharedQueue(); 
global results = new SharedQueue(); 


for (int i = 0; i < Nrows; i++) 
enqueue(task queue, i); 


// Create Nworkers threads ezecuting function worker() 
Fork (Nworkers, worker); 


.// Wait for results and graph them as they appear 
for (int i = 0; i< Nrows; i**) { 
while (empty(task queue) ( // wait for results 
wait 


temp row = dequeue(global results) 


graph(temp.row.index, RowSize, M, color map, ranges, Row.pixels) 


// Terminate the worker UEs 
Join (Nworkers); 





图 5-19 Mandelbrot 集合 生成 程序 的 主 / 从 模式 并 行 版 本 的 master 进程 
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如 图 5-20 所 示 ，worker 的 代码 比较 简单 。 首 先 ， 注 意 ， 假 设 诸如 队列 和 计算 参数 等 是 共 
享 变量 ， 因 此 这 两 个 变量 对 master 和 worker 是 全 局 可 见 的 。 因 为 队列 在 worker 派生 之 前 由 
master 填充 ， 所 以 终止 条 件 可 简单 定义 为 队列 为 空 。 每 一 个 worker 循环 获取 对 应 行 索 引 ， 进 
行 计 算 ， 将 行 索 引 和 计算 结果 放置 到 结果 队列 中 ， 直 到 队列 为 空 。 


void worker() 


Int i, irow; 
Row temp_row; 


while (!empty(task queue) { 


irow = dequeue(task queue); 

compute Row (RowSize, ranges, irow, temp row.pixels) 
temp row.index - irow 

enqueue(global results, temp row); 





图 5-20 Mandelbrot 集合 生成 程序 的 主 / 从 模式 并 行 版 本 的 worker 进程 。 设 置 共享 地 址 空间 ， 
{fi task queue, global results fll ranges 对 master 和 worker 都 可 见 


知名 应 用 。 这 种 模式 广泛 用 于 Linda 编程 环境 。 如 [CG91] 和 调查 报告 [CGMS94] 所 述 ， 
Linda 中 的 元 组 空间 非常 适合 于 那些 使 用 主 / 从 模式 的 程序 。 
主 / 从 模式 应 用 于 许多 分 布 式 计 算 环 境 中 ， 因 为 这 些 系统 的 可 用 资源 是 不 可 预测 的 。 作 
为 搜索 地 外 智慧 (SETI) 的 一 部 分 ，SETI@home MA [SET] 使 用 主 /从 模式 借助 志愿 者 的 
联网 计算 机 下 载 并 分 析 射 电 望 远 镜 数据 。Calypso 是 一 种 支持 PE 集合 动态 改变 的 分 布 式 计算 
框架 [BDK95]， 同 样 使 用 主 / 从 模式 。 基 因 组 数据 重复 检测 [RHB03] 的 一 个 并 行 算 法 也 使 用 
由 MPI 实现 的 主 / 从 模式 ,该 算法 运行 在 由 双 处 理 器 PC 搭建 的 集群 中 。 
6. 相关 模式 
i 当 循 环 要 使 用 某 种 形式 的 动态 调度 策略 时 ( 例如 ， 在 OpenMP 中 使 schedule (dynamic) 
151] 子 句 )， 这 种 模式 与 循环 并 行 模式 紧密 相关 。 
派生 /聚合 模式 有 时 也 在 后 人 台 使 用 主 /从 模式 实现 。 这 种 模式 与 使 用 TCGMSG[Har91、 
WSG95、LDSH95] 中 的 nextval 图 数 的 算法 密切 相关 。nextval 函数 实现 一 个 单调 计数 
妖 。 如 果 任 务 包 可 以 映射 到 一 个 固定 范围 内 的 单调 索引 上 ， 则 可 用 计数 器 构建 任务 包 ， 并 且 
master 的 功能 可 以 用 计数 需 隐 式 实 现 。 
最 后 ，5.4 节 讨 论 的 分 子 动力 学 示例 中 的 owner-computes 过 滤器 实质 上 是 master/worker 
进程 的 一 种 变 体 。 在 这 样 一 个 算法 中 ，master 所 要 做 的 是 建立 任务 包 (循环 迭代 ) 并 将 它们 
分 配给 UE， 其 中 任务 分 配给 UE 的 方式 由 过 滤器 所 定义 。 因 为 UE 实质 上 可 以 自己 完成 任务 
的 分 配 (通过 利用 过 滤器 检测 每 一 个 任务 )， 所 以 不 需要 显 式 的 master. 


5.6 ”循环 并 行 模式 


1. 问题 

给 定 一 个 串 行程 序 ， 程 序 热点 为 一 组 计算 密集 循环 ， 如 何 将 它 转 换 为 并 行程 序 ? 

2. 背景 

科学 和 工程 应 用 的 大 量程 序 都 基于 循环 迭代 结构 。 集 中 于 循环 来 优化 这 些 程序 ， 是 对 较 
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老 的 向 量 超级 计算 机 的 一 种 传统 回溯。 将 这 种 方法 扩展 到 现代 并 行 计 算 机 中 ， 得 到 一 种 新 的 
并 行 算法 策略 ， 在 该 算法 策略 中 ， 并 行 任务 定义 为 可 并 行 循环 的 迭代 。 
对 于 那些 已 经 具有 良好 程序 的 应 用 来 说 ， 围 绕 可 并 行 循环 构造 并 行 算 法 是 非常 重要 的 。 
在 许多 情形 中 ， 大 规模 重 构 一 个 已 有 程序 以 获得 并 行 性 能 ， 是 不 现实 的 。 当 程序 代码 非常 复 
杂 、 程 序 算法 难以 理解 时 (经 常会 出 现 这 种 情况 )， 这 样 做 是 非常 重要 的 。 
解决 这 种 问题 的 方法 是 构造 基于 循环 的 程序 ， 以 进行 并 行 计 算 。 当 可 以 获得 已 有 代码 ， 
并 要 将 其 从 串 行 程序 “演化 ”为 并 行程 序 时 ， 所 采用 的 方法 是 对 循环 进行 一 系列 转换 。 理 想 
情况 下 ， 对 代码 的 所 有 改变 局 限于 对 循环 的 转换 ， 这 种 转换 需要 消除 循环 依赖 性 ， 但 并 不 改 
变 整 个 程序 的 语义 (这 称 为 语义 中 立 转 换 )。 
并 不 是 所 有 问题 都 能 够 使 用 这 种 循环 驱动 的 方法 解决 。 显 然 ， 仅 当 算 法 的 大 多 数 ( 如 果 
不 是 所 有 ) 计算 密集 型 工作 都 位 于 一 定数 目的 不 同 循环 中 时 ， 这 种 方法 才 有 效 。 更 进一步 讲 ， 
循环 迭代 必须 能 作为 并 行 任务 很 好 地 工作 (也 就 是 说 ， 它 们 是 计算 密集 的 ， 具 有 充分 的 并 发 
性 ， 并 且 几 乎 是 独立 的 )。 
同时 ， 并 不 是 所 有 的 目标 计算 机 系统 都 适合 该 类 型 的 并 行程 序 。 如 果 不 能 重 构 代码 ， 以 
创建 高 效 的 分 布 式 数据 结构 ， 则 对 共享 地 址 提供 某 种 程度 的 支持 是 至 关 重 要 的 ， 但 也 是 最 普 
通 的 情形 。 最 后 ，Amdahl 定理 及 其 尽量 最 小 化 程序 串 行 部 分 的 需求 ,通常 意味 着 基于 循环 的 
方法 仅 在 那些 具有 较 小 数目 PE 的 计算 机 系统 中 能 够 取得 较 高 效率 。 
尽管 存在 这 些 限制 ， 但 这 类 并 行 算法 的 发 展 很 迅速 。 这 是 因为 基于 循环 的 算法 是 高 性 能 
计算 的 传统 方法 ， 在 新 程序 中 仍然 占据 支配 地 位 。 目 前 存在 大 量 基 于 循环 的 程序 需要 移植 到 
现代 并 行 计算 机 中 。 创 建 OpenMP API 的 主要 目的 是 为 了 支持 这 些 循环 驱动 问题 的 并 行 化 。 
这 些 算法 的 可 扩展 性 非常 差 ， 但 可 以 接受 ， 因 为 具有 两 个 或 四 个 处 理 器 的 机 器 远 比 具有 数 十 
或 数 百 个 处 理 需 的 机 需 多 得 多 。 
这 种 模式 与 运行 在 共享 内 存 计 算 机 上 的 程序 ， 以 及 与 那些 使 用 任务 并 行 模 式 和 几何 分 解 
模式 的 问题 密切 相关 。 
3. 面临 的 问题 
e 串 行 等 价 性 。 如 果 程 序 单 线程 或 多 线程 执行 ， 能 够 产生 一 致 的 结果 〈 除 伟人 误差 外 )， 
则 认为 该 程序 具有 串 行 等 价 性 。 串 行 等 价 性 代码 比较 容易 编写 和 维护 ， 并 且 一 份 程序 
源 代码 能 同时 在 串 行 机 器 和 并 行 机 器 上 工作 。 

e 增 量 并 行 性 ( 或 重 构 )。 当 对 一 个 已 有 程序 进行 并 行 化 时 ， 如 果 并 行 化 为 一 系列 增 量 
转换 ， 即 一 次 转换 一 个 循环 ; 并 且 转 换 不 “破坏 ”程序 ， 人 允许 在 每 次 转换 后 进行 测试 ， 
则 得 到 一 个 正确 的 并 行程 序 会 相对 容易 。 

e 内 存 使 用 。 良 好 的 性 能 需要 数据 访问 模式 〈 在 循环 中 隐 含 ) 能 与 系统 的 内 存 层次 很 
好 地 融合 在 一 起 。 这 个 问题 与 前 两 个 问题 不 一 样 ， 程 序 员 需要 对 循环 进行 大 规模 
重 构 。 

4. 解决 方案 

该 模式 与 OpenMP 所 隐 含 的 并 行 编程 风格 密切 相关 ， 基 本 方法 由 下 面 几 个 步骤 组 成 。 

e 定位 性 能 瓶颈 。 寻 找 计 算 最 密集 的 循环 ， 主 要 方式 为 : 剖析 代码 ; 了 解 每 一 个 子 问题 

的 性 能 需求 ; 使 用 程序 性 能 分 析 工 具 。 这 些 循环 在 典型 数据 集 上 的 总 运行 时 间 将 最 终 
限制 并 行程 序 的 可 扩展 性 (参考 Amdahl 定理 )。 
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e 消除 循环 依赖 性 。 寻 找 迭 代 间 或 读 / 写 访问 间 的 依赖 性 ， 进 而 转换 代码 以 消除 或 者 组 
解 这 些 依赖 性 ， 确 保 循 环 的 每 次 迭代 必须 近似 独立 。4.4 节 讨 论 了 如 何 寻找 和 消除 依赖 
PE, 5.8 节 也 讨论 了 如 何 利用 同步 结构 保护 这 些 依赖 性 。 
e 并 行 化 循环 。 在 UE 间 划 分 循环 迭代 。 为 保证 串 行 等 价 性 ， 程 序 需 要 使 用 语义 中 立 指 
A, W OpenMP 提供 的 这 种 指令 ( 见 附录 A )。 理 想 情 况 下 ， 应 当 一 次 只 处 理 一 个 循 
环 ， 并 进行 细致 的 检查 和 测试 ， 以 确保 没有 引入 竞争 条 件 或 其 他 错误 。 
e 优化 循环 调度 。 和 迭代 必须 能 够 在 程序 执行 时 被 UE 调度 ， 以 确保 负载 平衡 。 正 确 的 调 
度 策 略 依赖 于 对 问题 地 清晰 理解 ， 也 需要 频繁 地 试验 ， 以 找到 最 优 的 调度 策略 。 
仅 在 循环 迭代 的 计算 时 间 足 够 长 ， 能 够 补偿 并 行 循 环 开 销 时 ， 这 种 方法 才 有 效 。 每 个 循 
环 的 迭代 数量 也 非常 重要 ， 如 果 每 个 UE 可 以 分 配 多 个 迭代 将 增加 调度 灵活 性 。 在 某 些 情况 
下 ， 可 能 需要 进行 代码 转换 以 解决 这 些 问题 。 
通常 使 用 的 两 种 代码 转换 方式 如 下 。 
e 循环 合并 。 如 果 问 题 由 一 系列 循环 组 成 ， 并 且 这 些 循环 具有 一 致 的 循环 限制 ， 那 么 这 
些 循环 通 稼 可 以 合并 为 一 个 具有 更 复杂 迭代 的 循环 ， 如 图 5-21 所 示 。 


#define N 20 
#define NPoints 512 


void FFT(); // a function to apply an FFT 

void invFFT(); // a function to apply an inverse FFT 
void filter(); // a frequency space filter 

void setH(); // Set values of filter, H 


int main() { 
int is- js 
double A[Npoints], B[Npoints], C[Npoints], H[Npoints] ; 


setH(Npoints, H); 
// do a bunch of work resulting in values for A and C 


// method one: distinct loops to compute A and C 
for(i=0; i<N; i++){ 
FFT (Npoints, A, B); // B = transformed A 
filter(Npoints, B, H); // B = B filtered with H 
invFFT(Npoints, B, A); // A = inu transformed B 


for(i=0; i<N; i++){ 
FFT (Npoints, C, B); // B = transformed C 
filter(Npoints, B, H); // B = B filtered with H 
invFFT(Npoints, B, C); // C = inu transformed B 
} 


// method two: the above pair of loops combined into 

// a single loop 

for(i=0; i<N; i++){ 
FFT (Npoints, A, B); // B = transformed A 
filter(Npoints, B, H); // B = B filtered with H 
invFFT(Npoints, B, A); // A = inv transformed B 
FFT (Npoints, C, B); // B = transformed C 
filter(Npoints, B, H); // B = B filtered with H 
invFFT(Npoints, B, C); // C = inv transformed B 

} 


return 0; 





图 5-21 循环 合并 的 代码 片段 ， 为 了 增加 每 次 迭代 的 工作 量 
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图 5-22 所 示 。 较 大 次 数 的 迭代 有 助 于 减轻 并 行 循环 开销 ， 这 主要 是 因为 增加 了 循环 并 
发 性 ， 能 够 更 好 地 利用 较 大 数目 的 UE; 为 迭代 调度 到 UE 上 的 方式 提供 了 额外 选项 。 


#define N 20 
#define M 10 
extern double work(); // a time-consuming function 


int main() { 


int i; jy A3; 
double A[N] [M]; 


// method one: nested loops 


for(j=0; j<N; j++){ 
for(is0; i<M; i++){ 
A[i] [j] = work(i,j); 


) 


// method two: the above pair of nested loops combined into 
// a single loop. 


for(ij=0; ij<N*M; ij++){ 
j = ij/N; 
i = ij4M; 


Ali] [j] = work(i,j); 


// method three: the above loop parallelized with OpenMP. 

// The omp pragma creates a team of threads and maps 

// loop iterations onto them. The private clause 

// tells each thread to maintain local copies of ij, j, and i. 


#pragma omp parallel for private(ij, j, i) 
for(ijz0; ij<N*M; ij++){ 
j = ij/N; 
i = ij%M; 
A[il[j] = work(i,j); 


return 0; 
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OpenMP 语言 使 用 omp parallel for 指令 ,可 很 容易 完成 循环 的 并 行 化 。 这 条 指令 


告诉 编译 器 创建 一 组 线程 (共享 内 存 环境 中 的 UE )， 并 在 这 些 线程 间 对 循环 迭代 进行 分 配 。 
图 5-22 中 的 最 后 一 段 代 码 是 OpenMP 的 循环 并 行 化 示例 。 第 6 章 从 一 个 较 高 层次 描述 这 个 指 
令 。 语义 细节 请 参考 附录 A。 


注意 ， 在 图 5-22 中 ， 必 须 为 每 个 线程 创建 索引 i 和 j 的 副本 。 使 用 这 种 模式 最 常见 的 


错误 是 忽略 了 “私有 ”关键 变量 。 如 果 i 和 j 是 共享 变量 ， 那 么 不 同 UE 对 i 和 j 的 更 新 可 
能 会 引发 冲突 ， 并 导致 不 可 预测 的 结果 C 即 程 序 中 含有 竞争 条 件 )。 编 译 器 通常 不 检测 这 些 错 
误 ， 因 此 程序 员 必 须 十 分 小 心 ， 确 保 避 免 类 似 错误 的 产生 。 | 


应 用 这 种 模式 的 关键 是 使 用 语义 中 立 指令 修改 ， 以 产生 串 行 等 价 代码 。 语 义 中 立 修改 不 
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修改 都 是 语义 中 立 修改 。 另 外 ，OpenMP 中 的 大 多 数 指令 都 是 语义 中 立 的 。 这 就 意味 着 ， 添 
加 OpenMP 指令 并 单线 程 运行 ， 运 行 结果 和 没有 OpenMP 指令 的 原始 程序 的 运行 结果 相同 。 

两 个 语义 等 价 ( 当 单 线程 运行 时 ) 的 程序 不 一 定 是 串 行 等 价 的 。 无 论 是 单线 程 运行 还 是 
多 线程 运行 ， 串 行 等 价 都 意味 着 程序 将 给 出 相同 的 运行 结果 ( 因 改 变 浮 点 操作 的 顺序 而 产生 
的 伟人 误差 除外 )。 事 实 上 ， 消 除 循环 依赖 性 的 (语义 中 立 ) 动力 来 自 于 期 望 将 一 个 串 行 不 等 
价 的 程序 改变 为 一 个 串 行 等 价 的 程序 。 当 进行 程序 转换 以 提高 性 能 时 ， 即 使 转换 是 语义 中 立 
的 ， 也 要 仔细 注意 没有 丧失 串 行 等 价 性 。 

当代 码 指 定 线程 ID 或 者 线程 数目 时 ， 定 义 串 行 等 价 程序 将 更 加 困难 。 访 问 线程 ID MA 
程 数目 的 算法 趋向 于 访问 特定 的 线程 或 者 特定 的 线程 数目 。 当 目标 是 一 个 串 行 等 价 程序 时 ， 
这 是 一 种 非常 危险 的 情况 。 

当 算 法 依赖 于 线程 ID 时 ， 程 序 员 正在 应 用 SPMD 模式 。 这 可 能 让 人 困惑 。SPMD 程序 
可 以 是 基于 循环 的 。 事实 上 ，SPMD 模式 中 的 许多 示例 都 是 基于 循环 的 算法 。 但 它们 不 是 特 
环 并 行 模式 的 示例 ， 因 为 它们 演示 了 一 个 SPMD 程序 的 特性 一 一 即使 用 了 UE 的 ID 来 引导 
算法 。 

最 后 ， 假 设 当 使 用 这 种 编程 模式 时 ， 我 们 有 一 个 基于 指令 的 系统 (例如 OpenMP )。 如 果 
没有 这 种 基于 指令 的 编程 环境 ， 应 用 这 种 模式 虽然 可 行 但 非常 困难 。 在 面 问 对 象 的 设计 中 ， 
通过 灵活 地 使 用 具有 并 行 iterator 的 匿名 类 来 使 用 循环 并 行 模式 。 因 为 并 行 性 隐 含 在 iterator 
中 ， 所 以 可 以 满足 串 行 等 价 性 条 件 。 

性 能 考虑 。 使 用 这 种 模式 的 几乎 每 个 应 用 程序 中 ， 特 别 是 使 用 OpenMP 时 ,通常 假设 程 
序 运行 在 一 台 具 有 多 个 PE 的 计算 机 上 。 这 些 PE 共享 地 址 空间 ， 并 假设 这 个 地 址 空间 对 每 个 
存储 元 素 提 供 等 时 访问 。 

遗憾 的 是 ， 通 常 这 种 情况 很 难 满足 。 现 代 计 算 机 的 内 存 组 织 具 有 层次 性 ，PE 具有 缓存 ， 
内 存 模块 与 PE 的 子 集 封装 在 一 起 。 虽 然 在 设计 共享 内 存 多 处 理 器 计算 机 时 ， 努 力 使 它们 能 够 
像 对 称 多 处 理 器 (SMP) 计算 机 一 样 工作 。 但 事实 上 所 有 共享 内 存 计 算 机 都 展示 了 系统 中 某 
种 程度 的 不 一 致 内 存 访问 时 间 。 在 许多 情况 下 ， 这 些 并 不 是 优先 考虑 的 因素 ， 我 们 可 以 忽略 
程序 的 内 存 访问 模式 与 目标 计算 机 系统 内 存 层次 的 匹配 程度 。 然 而 ， 在 有 些 情 况 下 ， 特 别 是 
对 于 较 大 的 共享 内 存 机 器 ， 必 须根 据 内 存 层次 的 需要 显 式 组 织 程序 。 最 常用 的 技巧 是 确保 关 
键 数据 结构 在 初始 化 期 间 的 数据 访问 模式 与 后 续 计 算 使 用 这 些 数 据 结构 的 数据 访问 模式 相 匹 
配 。 在 [Mat03、NA01] 中 以 及 本 市 后 面 ， 更 详细 地 讨论 了 这 一 点 。 

另 一 个 性 能 问题 是 伪 共 享 。 当 不 被 UE 所 共享 的 一 些 变 量 恰 好 驻 留 在 相同 的 缓存 行 中 时 ， 
就 发 生 这 个 问题 。 因 此 ， 尽 管 程序 在 语义 上 是 独立 的 ， 但 每 个 UE 的 每 次 访问 都 需要 在 UE 间 
移动 一 个 缓存 行 ， 这 可 能 会 带 来 巨大 的 开销 。 因 为 当 这 些 所 谓 的 独立 变量 被 更 新 时 ， 绥 存 行 
会 反复 在 UE 间 移 动 。 图 5-23 中 给 出 了 这 样 一 个 存在 伪 共 享 的 程序 片段 。 代 码 中 有 一 个 藤 套 
循环 ， 外 层 循环 的 迭代 次 数 较 少 ， 映 射 到 UE 的 数目 (在 此 假设 这 个 迭代 次 数 为 4 )。 内 层 循 
环 的 迭代 次 数 较 多 且 比 较 耗 时 。 假 设 对 于 外 层 循环 的 每 次 迭代 ， 内 层 循 环 迭 代 次 数 大 致 相等 ， 
则 这 个 循环 将 高 效 地 并 行 化。 但 是 内 层 循环 对 数组 A 元 素 的 每 次 更 新 都 需要 UE 请 求 对 应 的 
缓存 行 。 尽 管 数 组 A 的 元 素 在 UE 间 是 完全 独立 的 ， 但 是 它们 很 可 能 位 于 同一 缓存 行 中 。 因 
此 ， 内 层 循环 的 每 次 迭代 将 产生 一 次 昂贵 的 缓存 行 “ 无 效 移动 ”操作 。 这 个 问题 不 仅 会 降低 
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并 行 加 速 比 ， 而 且 当 PE 数目 增多 时 ， 并 行程 序 还 会 变 慢 。 解 决 方案 是 在 每 一 个 线程 中 创建 一 
个 私有 临时 变量 ， 在 内 层 循 环 中 作为 中 间 结 果 。 虽 然 此 时 仍然 存在 伪 共 享 ， 但 仅 针对 迭代 次 


数 较 少 的 外 部 循环 ， 带 来 的 性 能 影响 是 可 以 忽略 的 。 


#include <omp.h> 
#define N 4 // Assume this equals the number of UEs 
#define M 1000 


extern double work(int, int); // a time-consuming function 
int main() { 


int i, j; 
double A[N] = (0.0); // Initialize the array to zero 


// method one: a loop with false sharing from A since the elements 
// of A are likely to reside in the same cache line. 


#pragma omp parallel for private(j,i) 
for(j=0; j<N; j++){ 
for(i=0; i<M; i++){ 
A[j] += work(i,j); 
} 
} 


// method two: remove the false sharing by using a temporary 
// private variable in the innermost loop 


double temp; 


#pragma omp parallel for private(j,i, temp) 
for(j=0; j«N; j++){ 
temp = 0.0; 
for(i=0; i«M; i++){ 
temp += work(i,j); 


} 
A[j] += temp; 


/ 
return 0; 





RI 5-23 ” 伪 共 享 程序 片段 。 小 数组 A 存储 在 一 个 或 两 个 缓存 行 中 。 当 UE 在 内 层 循环 

中 访问 A 时 ， 它 们 将 从 其 他 UE 处 取 回 该 缓存 行 的 所 有 权 。 缓 存 行 的 这 种 前 
后 移动 将 降低 系统 性 能 。 解 决 方案 是 在 内 层 循环 中 使 用 一 个 临时 变量 

5. 示例 

该 模式 的 示例 如 下 : 

e 数值 积分 ， 使 用 梯形 规则 估算 一 个 定 积分 的 值 ; 

e 分 子 动力 学 ， 非 化 学 键 能 量 计算 ; 

e Mandelbrot 集合 计算 ; 

e 网 格 计 算 。 


这 些 示例 在 本 书 的 其 他 章节 已 经 详细 描述 过 了 。 本 节 着 重 讨论 循环 ， 以 及 它们 并 行 化 的 


方式 。 
数值 积分 。 考 虑 使 用 式 (5-5 ) 估算 a 值 的 问题 : 


p 4 
m= | peg 





( 5-5) 


114 553 





我 们 使 用 梯形 规则 来 求解 这 个 积分 。 其 基本 思想 是 用 一 系列 矩形 填充 一 条 曲线 之 下 的 区 
域 。 当 矩形 宽度 接近 于 0 时 ， 和 矩形 面积 总 和 接近 于 积分 值 。 

图 5-24 显示 了 在 单 处 理 器 上 进行 这 种 计算 的 串 行程 序 。 为 简单 起 见 ， 我 们 将 积分 中 的 碗 
代 次 数 固定 为 1 000 000。 变 量 sum 初始 化 为 0， 步 长 通过 x ( 在 这 种 情形 中 ，x 为 1.0 ) 除 以 
总 迭代 次 数 计算 得 到 。 每 一 个 矩形 的 面积 为 宽 ( 步 长 ) 乘 以 高 (被 积 函 数 在 区 间 的 中 心 值 )。 
因为 宽 是 一 个 常量 ， 所 以 我 们 将 其 放 在 和 迭代 循环 之 外 ， 并 使 用 步 长 (step) 乘 以 矩形 高 度 的 
总 和 ， 以 获得 定 积 分 的 估算 值 。 


#include <stdio.h> 
#include <math.h> 


int main () { 
int i; 
int num_steps = 1000000; 
double x, pi, step, sum = 0.0; 


step = 1.0/(double) num_steps; 


for (i=0;i< num steps; i++) 


x = (i*0.5)*step; 

sum = sum + 4.0/(1.0*x*x); 
) 
pi = step * sum; 
printf("pi Al1fWn",pi); 
return 0; ^ 





5-24 利用 梯形 规则 估算 m 值 的 串 行 代码 


使 用 循环 并 行 模式 构建 该 程序 的 并 行 版 本 比较 简单 。 程 序 仅 包 含 一 个 循环 ， 因 此 检查 阶 
段 非常 简单 。 为 保持 循环 迭代 的 独立 性 ， 我 们 认为 : 变量 x 的 值 对 每 次 迭代 来 说 都 是 局 部 的 ， 
因此 这 个 变量 可 定义 为 线程 的 局 部 变量 或 私有 变量 ; sum 更 新 需 定 义 一 次 归 约 操作 。OpenMP 
的 API 支持 归 约 操作 。 除 添加 #include<omp.h> “语句 外 ， 只 需 在 for 循环 之 前 再 添加 如 
下 一 行 代码 ， 就 可 以 构建 该 程序 的 一 个 并 行 版 本 : 


#pragma omp parallel for private(x) reduction (+:sum) 


这 条 pragma 语句 告诉 OpenMP 编译 器 : 创建 一 个 线程 组 ; @) 为 每 个 线程 创建 x 和 
sum 的 一 个 私有 副本 ; OK sum 初始 化 为 0 ( 对 于 加 法 为 单位 操作 数 ); 图 将 循环 迭代 映射 到 
线程 中 ; OK sum 的 局 部 结果 归 约 为 一 个 全 局 结果 ; @ 将 所 有 的 并 行 线程 聚合 到 主线 程 。 第 
6 章 和 ( 附录 A ) 对 每 个 步骤 进行 了 详细 描述 。 对 于 非 OpenMP 编译 器 ， 这 条 pragma 语句 将 
被 忽略 ， 因 此 对 程序 的 行为 不 产生 任何 影响 。 

分 子 动力 学 。 本 书 通 篇 将 使 用 分 子 动力 学 算法 作为 一 个 递归 示例 介绍 这 种 仿真 。 分 子 
动力 学 仿真 了 一 个 大 型 分 子 系统 的 运动 。 该 算法 使 用 一 个 显 式 时 间 步 方法 ， 即 计算 出 每 个 原 
子 在 每 个 时 间 步 的 作用 力 ， 然 后 使 用 经 典 力学 中 的 标准 算法 来 计算 作用 力 是 如 何 改变 原子 运 
动 的 。 


Q 这 个 头 文件 文件 定义 了 OpenMP 所 使 用 的 函数 原型 和 不 透明 的 数据 类 型 。 


“ABEB” ZARI 0000000000000 2 


该 应 用 的 核心 算法 ( 包括 伪 代 码 )， 在 3.1.3 节 和 5.4 节 中 都 介绍 过 。 该 程序 由 一 系列 作 
用 在 原子 上 的 计算 昂贵 的 循环 组 成 〈 在 分 子 系统 范围 内 )。 这 些 循环 藤 套 在 一 个 作用 在 时 间 上 
的 顶层 循环 中 。 

作用 在 时 间 上 的 循环 不 能 并 行 化 ， 因 为 第 1 一 1 步 的 坐标 和 速度 是 第 1 步 的 起 点 。 但 是 ， 
作用 在 原子 上 的 每 个 循环 都 能 够 并 行 化 。 其 中 要 解决 的 关键 问题 是 非 化 学 键 能 量 的 计算 。 该 
计算 的 代码 如 图 5-25 所 示 。 与 5.4 节 的 示例 中 所 使 用 的 方法 不 同 ， 假 设 程序 和 它 的 数据 结构 
与 串 行 代码 相同 。 

function non_bonded_forces (N, Atoms, neighbors, Forces) 


Int N // number of atoms 


Array of Real :: atoms (3,N) //3D coordinates 

Array of Real :: forces (3,N) //force in each dimension . 
Array of List :: neighbors(N) //atoms in cutoff volume 
Real :: forceX, forceY, forceZ 


loop [i] over atoms 


loop [j] over neighbors(i) 
forceX = non bond, force(atoms(1,i), atoms(1,j)) 
forceY = non, bond force(atoms(2,i), atoms(2,j)) 
forceZ = non. bond, force(atoms(3,i), atoms(3,j)) 
force{1,i) += forceX; forceíil,j) -= forceX; 
force(2,i) += forceY; force{2,j) -= forceY; 
force{3,i) += forceZ; force{3,j) -= forceZ; 

end loop [j] 


end loop [i] 
end function non. bonded forces 


图 5-25 ”一 段 典 型 的 分 子 动力 学 并 行 代码 中 非 化 学 键 作 用 力 计 算 的 伪 代 码 。 
该 代码 与 图 4-4 所 示 的 串 行 函数 版 本 几乎 一 致 





我 们 将 并 行 化 作用 于 原子 的 循环 。 和 注意， 变量 forceX、forceY 和 forceZ 是 迭代 内 
部 使 用 的 临时 变量 。 我 们 将 在 每 个 UE 上 创建 这 些 变量 的 副本 。force 数组 的 更 新 是 归 约 操 
作 。 这 些 函 数 的 并 行 化 需要 在 作用 于 原子 的 循环 之 前 添加 一 条 指令 : 


#pragma omp parallel for private(j, forceX, forceY, forceZ) \ 
reduction (+ : force) 


每 个 原子 的 工作 量 是 不 可 预测 的 ， 这 依赖 于 该 原子 邻近 区 域 中 的 原子 数目 。 尽 管 编译 器 

可 以 假定 一 种 高 效 的 调度 方式 ， 但 在 这 个 问题 中 ， 最 好 尝试 不 同 的 调度 方式 ， 以 寻找 最 优 的 

工作 方式 。 因 为 每 个 原子 的 工作 量 是 不 可 预测 的 ， 所 以 应 当 使 用 OpenMP 的 一 种 动态 调度 策 

| 略 〈 在 附录 A 中 ， 有 关于 这 些 策略 的 描述 )。 这 需要 添加 一 个 schedule 子 句 。 这 是 并 行 化 
这 个 程序 的 最 后 一 条 pragma 语句 : 


#pragma omp parallel for private(j, forceX, forceY, forceZ) \ 
reduction (+ : force) schedule (dynamic,10) 


这 个 schedule 子 句 告诉 编译 器 将 循环 迭代 分 成 大 小 为 10 的 任务 块 ， 并 将 它们 动态 地 
分 配给 UE。 任 务 块 的 大 小 是 任意 的 ， 需 根据 动态 调度 开销 和 负载 均衡 的 效率 来 综合 选 定 。 

C/C++ 版 的 OpenMP 2.0 不 支持 数组 归 约 操作 ， 因 此 需要 显 式 地 进行 归 约 。 这 个 工作 非 
常 简 单 ( 如 图 5-11 所 示 )。 将 来 的 OpenMP 版 本 将 纠正 这 个 缺陷 ， 在 所 有 支持 OpenMP 的 语 
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言 中 都 提供 对 数组 归 约 操作 的 支持 。 

本 书 中 的 所 有 分 子 动力 学 程序 将 使 用 相同 方法 对 非 化 学 键 作 用 力 计 算 进 行 并 行 化 。 性 能 
和 可 扩展 性 成 为 构建 该 程序 SPMD 版 本 的 主要 障碍 。 这 是 因为 每 次 遇 到 并 行 指 令 ， 就 需要 创 
建 一 个 新 的 线程 组 。 大 多 数 OpenMP 实现 使 用 线程 池 ， 而 不 是 为 每 个 并 行 区 域 实 际 创 建 一 个 
新 的 线程 组 ， 这 将 最 小 化 线程 的 创建 和 销毁 开销 。 但 是 ， 这 种 并 行 化 计算 方法 仍然 会 带 来 严 
重 的 额外 开销 ， 而 且 缓 存 中 数据 的 重用 性 较 差 。 原 则 上 ，UE 上 的 每 个 循环 可 以 通过 一 种 不 同 
的 模式 访问 原子 。 但 这 会 降低 UE 高 效 利 用 已 经 位 于 缓存 中 数据 的 能 力 。 

即使 存在 这 些 缺 点 ， 当 面向 一 个 小 型 共享 内 存 计 算 机 系统 进行 算法 并 行 化 时 ， 通 常 仍 使 
用 这 种 方法 [BBE+99]。 例 如 ， 可 在 一 个 集群 中 使 用 SPMD 版 本 的 分 子 动力 学 程序 ， 然 后 使 用 
OpenMP, ， 通 过 在 双 处 理 器 或 多 微 处 理 器 上 同时 使 用 多 线程 来 获得 额外 性 能 [MPS02]。 

Mandelbrot 集合 计算 。 考 虑 著名 的 Mandelbrot 集合 [Dou86]。4.4 节 和 5.4 节 对 该 算法 以 
及 并 行 化 进行 了 讨论 。 该 算法 基于 式 ( 5-6 ) 中 的 二 次 递归 关系 式 对 每 一 个 像素 进行 着 色 。 

Za =Z +C (5-6 ) 


式 中 ,C 和 2Z 是 复数 ， 递 归 从 Z =C 开始 。 图 像 在 垂直 轴 ( -1.5 ~ 1.5) 上 绘制 C 的 虚 部 ， 
在 水 平 轴 ( -1 ~ 2) 上 绘制 C 的 实 部 。 如 果 弟 归 关 系 收敛 于 一 个 稳定 值 ， 则 每 个 像素 的 颜色 
都 是 黑色 ; 否则 ， 将 根据 递归 关系 的 发 散 率 对 像素 进行 着 色 。 

图 5-26 展示 了 该 算法 串 行 版 本 的 伪 代 码 。 程 序 的 核心 计算 隐藏 在 compute_row() fil 
程 中 。 因 为 该 例 程 的 细节 对 于 理解 并 行 算法 来 说 并 不 重要 ， 所 以 在 这 里 将 不 讨论 。 对 于 一 行 
中 的 每 个 点 ， 需 要 进行 如 下 处 理 。 

e 每 个 像素 对 应 于 二 次 递归 关系 式 中 C 的 一 个 值 。 我 们 基于 输入 range 和 像素 的 索引 计 

算 这 个 值 。 | 
e 计算 递归 中 的 项 ， 并 基于 它 是 否 收敛 于 一 个 固定 值 或 者 发 散 率 来 设置 像素 值 。 如 果 它 
发 散 ， 就 基于 发 散 率 设置 像素 值 。 


Int const Nrows // number of rows in the image 
Int const RowSize // number of pizels in a row 
Int const M // number of colors in color map 


Real :: conv // divergence rate for a pizel 

Array of Int :: color map (M) // pizel color based on conv rate 
Array of Int :: row (RowSize) // Pizels to draw 

Array of Real :: ranges(2) // ranges in X and Y dimensions 


manage user input(ranges, color map) // input ranges, color map 
initialize_graphics(RowSize, Nrows, M, ranges, color map) 


for (int i = 0; i<Nrows; i++){ 
compute Row (RowSize, ranges, row) 
graph(i, RowSize, M, color map, ranges, row) 


) // end loop [i] over rows 





图 5-26 Mandelbrot 集合 生成 程序 串 行 版 本 的 伪 代 码 
计算 完成 后 ,绘制 所 有 行 ， 从 而 绘制 出 著名 的 Mandelbrot 集合 图 像 。 根 据 发 散 率 到 一 个 
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颜色 表 的 映射 来 确定 像素 颜色 。 
使 用 循环 并 行 模式 构建 该 程序 的 并 行 版 本 比较 简单 。 作 用 在 行 上 的 循环 兴 代 相互 独立 ， 
只 需要 确保 每 一 个 线程 只 处 理 属 于 自己 的 行 。 利 用 一 个 pragma 语句 来 完成 这 个 工作 : 


#pragma omp parallel for private(row) 


任务 调度 可 能 有 点 麻烦 ， 因 为 每 一 行 的 工作 量 依 赖 于 点 的 发 散 程 度 ， 所 以 差别 较 大 。 程 
序 员 应 当 尝 试 几 种 不 同 的 调度 策略 ,但 是 周期 调度 策略 很 可 能 会 实现 高 效 的 负载 均衡 。 在 周 
期 调度 策略 中 ， 循 环 迭 代 像 分 发 纸牌 一 样 调度 运行 。 通 过 将 循环 进 代 交错 地 分 配 到 一 组 线程 
中 ,很 可 能 会 实现 较 好 的 负载 均衡 。 因 为 这 种 调度 策略 是 静态 的 ， 所 以 所 市 来 的 额外 开销 也 
较 小 。 


#pragma omp parallel for private(Row) schedule(static, 1) 


关于 schedule 子 句 和 并 行程 序 员 所 能 够 使 用 的 不 同 选项 的 详细 信息 ， 请 参考 附录 A. 

注意 ， 我 们 假设 程序 中 所 使 用 的 制图 包 是 线程 安全 的 ， 即 当 多 个 线程 同时 调用 这 个 库 时 ， 
不 会 产生 任何 问题 。 对 于 标准 IO 库 ，OpenMP 规范 要 求 它 具 有 线程 安全 性 ， 但 是 对 其 他 库 没 
有 这 样 的 有 要求 。 因 此 ， 需 要 将 gxaph 函数 放置 在 一 个 临界 区 内 以 进行 多 线程 保护 : 


#pragma critical 
graph(i, RowSize, M, color_map, ranges, row) 


第 6 章 和 附录 A 详细 地 描述 这 种 结构 。 这 种 方法 虽然 能 够 很 好 地 工作 ， 但 如 果 在 相同 的 
”时 间 内 ,很 多 行 同时 进行 计算 ， 并且 所 有 线程 都 尝试 绘制 它们 的 行 ， 则 这 种 方法 具有 严峻 的 
性 能 问题 。 

网 格 计算 。 考 虑 一 种 求解 ID 热 扩 散 公 式 的 简单 网 格 计算 。4.6 市 详细 描述 了 该 问题 以 及 
基于 OpenMP 的 解决 方案 。 图 5-27 中 重新 给 出 了 这 个 解决 方案 。 


#inclaude <stdio.h> 
#include <stdlib.h> 
#include <omp.h> 
#define NX 100 
#define LEFTVAL 1.0 
#define RIGHTVAL 10.0 
#define NSTEPS 10000 


void initialize(double uk[], double ukpi[]) { 
uk[0] = LEFTVAL; uk[NX-1] = RIGHTVAL; 
for (int i = 1; i < NX-1; ++i) 
uk[i] = 0.0; 
for (int i = 0; i < NX; ++i) 
ukpi[i] = uk[i]; 
) 


void printValues(double uk[], int step) { /* NOT SHOWN */ } 


int main(void) { 
/* pointers to arrays for two iterations of algorithm */ 
double *uk = malloc(sizeof(double) * NX); 
double *ukpi = malloc(sizeof(double) * NX); 
double *temp; 
int i,k; 





图 5-27 基于 OpenMP 的 并 行 热 扩散 程序 。4.6 节 的 示例 介绍 过 这 个 程序 
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double dx = 1.0/NX; double dt = 0.5*dx*dx; 


#pragma omp parallel private (k, i) 
{ 


initialize(uk, ukp1); 


for (k = 0; k « NSTEPS; **k) { 
#pragma omp for schedule(static) 
for (i = 4; 4 < NX-1; ++i) ( 
ukpi [i]=uk[i]+ (dt/(dx*dx))*(uk[i*1]-2*uk[i]*uk[i-1]); 


/* "copy" ukp1 to uk by swapping pointers */ 
#pragma omp single 
{temp = ukpi; ukpt = uk; uk = temp;} 
} 
} 
return 0; 


} 





图 5-27 ( 4) 


这 个 程序 在 大 多 数 共 享 内 存 计算 机 上 能 很 好 地 工作 。 然 而 ， 如 果 仔 细 分 析 程 序 性 能 ， 将 
会 发 现 两 个 问题 。 首 先 ， 保 护 共 吝 指针 交换 的 single 指令 增加 了 一 个 额外 的 barrier 操作 ， 
极 大 增加 了 同步 开销 。 其 次 ,在 NUMA 计算 机 上 ， 该 算法 的 访 存 开销 可 能 会 很 高 ， 因 为 我 们 


没有 将 数组 放 在 处 理 它们 的 PE 附近 。 

图 5-28 所 示 的 代码 解决 了 这 两 个 问题 。 为 去 掉 single 指令 ， 可 以 通过 使 用 private 
语句 使 每 个 线程 都 具有 自己 的 uk 和 ukpl 指针 的 副本 。 然 而 ,为 了 更 加 灵活 ， 需 要 指向 由 网 
格 值 所 组 成 的 共享 数组 的 uk 和 ukpl 指针 的 新 私有 副本 。 这 可 以 通过 使 用 firstprivate 
子 句 来 实现 ， 该 语句 应 用 于 创建 线程 组 的 Parallel 指令 。 


#include <stdio.h> 
#include <stdlib.h> 
#include <omp.h> 
#define NX 100 
#define LEFTVAL 1.0 
#define RIGHTVAL 10.0 
#define NSTEPS 10000 


void initialize(double uk[], double ukpi[]) { 
int i; 
uk [0] = LEFTVAL; uk[NX-1] = RIGHTVAL; 
ukpl[NX-1] = 0.0; 

#pragma omp for schedule(static) 


for (i = 1; i < NX-1; ++i){ 
uk[i] = 0.0; ` 
ukpi[i] = 0.0; 

} 


} 
void printValues(double uk[], int step) { /* NOT SHOWN */ } 


int main(void) 1 
/* pointers to arrays for two iterations of algorithn */ 
double *uk = malloc(sizeof(double) * NX); 
double *ukpi = malloc(sizeof(double) * NX); 
double *temp; 
int i,k; 





图 5-28 基于 OpenMP 的 并 行 热 扩散 程序 ， 降 低 了 线程 管理 开销 ， 且 内 存 管理 更 适 于 NUMA 计算 机 


Seo 


double dx = 1.0/NX; double dt = 0.5*dx*dx; 


#pragma omp parallel private (k, i, temp) firstprivate(uk, ukpi) 
{ 


initialize(uk, ukp1); 


for (k = 0; k < NSTEPS; ++k) { 
#pragma omp for schedule(static) 
for (i = 1; i < NX-1; ++i) ( 
ukpi[i]zuk[i]* (dt/(dx*dx))*(uk[i*i]-2*uk[i]*uk[i-1]); 
} 


/* "copy" ukp1 to uk by swapping pointers */ 
temp = ukpi; ukpl = uk; uk = temp; 

T" 

} 


return 0; 





图 5-28 (£) 


我 们 所 解决 的 另外 一 个 性 能 问题 ， 最 小 化 访 存 开销 ， 它 所 使 用 的 方法 更 微妙 。 如 前 所 述 ， 
为 降低 访 存 量 ， 最 重要 的 是 数据 存储 位 置 尽 可 能 接近 处 理 它们 的 PE。 在 NUMA 计算 机 上 ， 
这 对 应 于 确保 将 内 存 页 面 分 配给 将 要 处理 这 些 页 面 中 数据 的 PE。 最 常用 的 NUMA 页 面 布局 
算法 是 “first touch” 算 法 。 其 基本 思想 是 : 当 PE 第 一 次 访问 某 个 内 存 区 域 时 ， 将 包含 该 内 
存 区 域 的 页 面 将 分 配给 它 。OpenMP 程序 经 常 使 用 的 一 种 技术 是 使 用 与 后 续 计 算 相 同 的 循环 
调度 策略 来 并 行 地 初始 化 数据 。 

首先 稍微 改变 初始 化 过 程 使 得 初始 化 循环 与 计算 循环 一 致 ;然后 在 初始 化 循环 中 使 用 与 
计算 循环 相同 的 并 行 化 指令 。 虽 然 这 并 不 能 保证 这 是 内 存 页 面 到 PE 的 最 优 映射 ， 但 是 非常 容 
易 实现 ， 并 且 在 许多 情况 下 ， 它 非常 接近 于 最 优 解 决 方案 。 

知名 应 用 。OpenMP 程序 员 经 常 使 用 循环 并 行 模式 。 在 北美 ( Wompat : OpenMP 应 用 和 
工具 的 研讨 会 )、 欧 洲 ( WEOMP : OpenMP 欧洲 研讨 会 ) 和 日 本 ( WOMPEI : OpenMP 经 验 
和 实现 研讨 会 ) 每 年 都 举行 研讨 会 ， 讨 论 OpenMP 及 其 用 法 。 可 以 很 方便 地 获得 这 些 研讨 会 
的 论文 集 [VJKT00、Sci03、EV01]， 这 些 论文 集 包 含 循环 并 行 模式 的 很 多 示例 。 

OpenMP 的 大 多 数 工 作 被 限定 在 共享 内 存 多 处 理 器 计算 机 上 ， 用 于 解决 那些 能 够 在 近乎 
平面 的 内 存 层次 上 就 可 以 很 好 工作 的 问题 。 然 而 ， 为 了 将 OpenMP 应 用 程序 扩展 到 更 复杂 的 
存储 层次 中 ,包括 NUMA 机 器 [NA01、SSGF00]， 甚 至 是 集群 [HLCZ99、SHTS01]， 人 们 已 
经 做 了 很 多 工作 。 

6. 相关 模式 

循环 集合 驱动 并 行 是 一 个 普遍 的 概念 ， 并 用 于 多 种 模式 中 。 特 别 是 许多 使 用 SPMD 模式 
的 问题 是 基于 循环 的 。 但 是 它们 需要 使 用 UE 的 ID 来 并 行 化 循环 ， 因 此 无 法 很 好 地 映射 到 这 
种 模式 。 男 外 ， 一 些 使 用 SPMD 模式 的 问题 在 循环 间 通 常会 包含 某 种 程度 的 并 行 逻 辑 ， 这 使 
得 它们 能 够 减少 程序 的 串 行 部 分 。 这 也 是 SPMD 程序 比 使 用 循环 并 行 模式 的 程序 更 具 可 扩展 
性 的 原因 之 一 。 

为 共享 内 存 计算 机 所 开发 的 算法 (一般 使 用 任务 并 行 模式 或 几何 分 解 模 式 ) 通常 使 用 循 
环 并 行 模式 。 
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5.7 派生 /聚合 模式 


1. 问题 
在 某 些 程 序 中 ， 并 发 任务 数量 随 程 序 执行 而 发 生变 化 ， 这 些 任务 相关 的 行为 使 得 简单 控 
制 结构 ( 如 并 行 循环 ) 无 法 实现 良好 的 并 行 化 。 如 何 围绕 复杂 动态 任务 集 构造 并 行程 序 呢 ? 
2. 背景 
某 些 问题 的 算法 使 用 一 种 通用 和 动态 的 并 行 控制 结构 。 当 程序 继续 执行 时 ， 任 务 动态 创 
E ( 即 派生 )， 然 后 聚合 终止 ( 即 聚 合 )。 在 大 多 数 情 况 下 ， 任 务 间 关系 很 简单 ， 动 态 任务 创建 
可 以 通过 并 行 循环 处 理 (如 5.6 节 所 述 )， 或 者 通过 任务 队列 处 理 (如 5.5 节 所 述 )。 然 而 ,在 
某 些 情况 下 ， 必 须 通过 任务 的 管理 方式 来 捕获 算法 中 任务 间 的 相互 关系 。 如 : 递归 产生 的 任务 
结构 ， 非 常 不 规则 的 连接 任务 (connected task) 集 ， 以 及 那些 不 同 函 数 被 映射 到 不 同 并 发 任务 
的 问题 。 在 每 一 个 示例 中 ， 任 务 首先 被 派生 ， 然 后 聚合 到 父 任务 即 执行 fork 操作 的 任务 ) 
和 由 相同 父 任务 创建 的 其 他 任务 上 。 这 些 问题 是 利用 派生 / 聚合 ( Fork/Join ) 模式 解决 的 。 
以 使 用 分 治 模式 设计 的 算法 作为 示例 。 当 程序 执行 时 ， 问 题 被 划分 为 多 个 子 问 题 ， 然 后 
167] 递归 创建 (或 者 派生 ) 新 任务 来 并 发 执行 这 些 子 问题 ; 这 些 任务 可 能 会 被 进一步 划分 。 当 处 
理 一 个 特定 划分 的 所 有 任务 终止 并 且 聚 合 到 父 任务 时 ， 父 任务 再 继续 运行 。 
这 种 模式 与 在 共享 存储 器 计算 机 上 运行 的 Java 程序 和 使 用 分 治 模式 与 递归 数据 模式 的 问 
题 特别 相关 。 当 OpenMP 环境 支持 误 套 并 行 时 ， 也 可 以 高 效 地 使 用 这 种 模式 。 
3. 面临 的 问题 
e 算法 隐 含 了 任务 间 的 相互 关系 。 在 有 些 问题 中 ， 任 务 间 存在 需要 动态 创建 和 终止 的 复 
Ze (或 递归 ) 关系 。 尽 管 这 些 关 系 可 以 上 映射 到 熟悉 的 控制 结构 上 ,. 但 在 许多 情形 中 ， 
如 果 任 务 结构 与 UE 结构 相近 ， 则 更 易于 理解 设计 。 
e 任务 到 UE 一 对 一 映射 是 很 自然 的 ， 但 必须 要 和 系统 中 可 用 的 UE 数目 进行 平衡 。 
e UE 的 创建 和 销毁 具有 很 大 的 开销 。 为 使 这 两 个 操作 不 会 严重 影响 程序 的 整体 性 能 ， 
可 能 需要 重新 构造 算法 。 
4. 解决 方案 
当 使 用 派生 / 聚 合 模式 时 ， 任 务 以 不 同方 法 映射 到 UE 上 。 我 们 将 讨论 两 种 方法 : 直接 映 
射 ， 每 个 UE 处 理 一 个 任务 ; 间接 上 映射， 一 个 UE 池 处 理 一 个 任务 集 。 
任务 /UE 直接 映射 。 最 简单 的 情形 是 将 每 一 个 子 任务 映射 到 不 同 UE 上 。 当 派生 新 的 子 
任务 时 ， 创 建新 的 UE 处 理 它 们 ， 这 将 建立 对 应 的 任务 和 UE 集合 。 在 许多 情形 中 ， 存 在 一 个 
同步 点 ， 主 任务 在 该 点 处 等 待 子 任务 的 完成 ， 这 称 为 聚合 。UE 完成 对 应 的 子 任务 后 将 被 销毁 。 
我 们 将 在 后 面 提供 这 种 方法 的 一 个 示例 ( 使 用 Java 编程 语言 )。 
派生 /聚合 模式 应 用 的 直接 任务 /UE 映射 法 是 OpenMP 的 标准 编程 模型 。 程 序 开始 运行 
时 只 有 一 个 线程 (主线 程 )， 随 后 在 并 行 区 域 处 派生 出 一 组 线程 。 这 些 线程 共享 地 址 空间 并 在 
并 行 区 域 的 结尾 处 聚合 在 一 起 。 然 后 初始 主线 程 继续 执行 ， 直 到 程序 结束 或 直到 下 一 个 并 行 
区 域 ”。 这 种 结构 是 5.6 节 所 描述 的 OpenMP 并 行 循 环 构建 的 实现 基础 。 


C 通常 ，OpenMP 程序 中 的 艇 套 并 行 区 域 也 采用 这 种 直接 映射 法 。 这 种 方法 已 经 成 功 应 用 于 [AML+99]。 但 
OpenMP 规范 要 求 OpenMP KAE “PBE” WEHR ( 也 就 说 ， 使 用 大 小 为 1 的 线程 组 执行 它们 )。 
因此 ，OpenMP 程序 不 能 依赖 符 套 并 行 区 域 派 生 额 外 线程 。 当 程序 员 使 用 OpemMP 编写 最 简单 的 派生 / 3€ 
合 程序 时 一 定 要 谨慎 。 


J 


任务 /UE 间接 映射 。 并 行程 序 中 ， 线 程 与 进程 的 创建 和 销毁 开销 非常 大 。 如 果 一 个 程序 
含有 多 个 派生 和 聚合 操作 ， 则 需要 多 次 构建 和 销毁 UE， 这 势必 会 影响 程序 效率 。 另 外 ， 如 果 
UE 数目 多 于 PE， 则 上 下 文 切换 所 带 来 的 开销 是 程序 所 不 能 接受 的 。 

在 这 种 情况 下 ， 最 好 使 用 线程 池 来 实现 派生 /聚合 模式 ， 以 避免 UE 的 动态 创建 。 其 基 
本 思想 是 : 在 第 一 个 派生 操作 之 前 ， 创 建 一 个 与 PE 数目 相同 的 静态 UE 集 ， 然 后 使 用 任务 队 
列 将 任务 动态 映射 到 UE Eo UE 本 身 没 有 重复 地 创建 和 销毁 ， 只 是 实现 了 和 动态 创建 的 任务 
的 简单 映射 。 尽 管 这 种 方法 实现 起 来 很 复杂 ， 但 是 能 在 高 效 的 程序 中 实现 很 好 的 负载 均衡 。 
我 们 将 在 本 节 的 示例 中 讨论 一 个 使 用 这 种 方法 的 Java 程序 。 

OpenMP 对 使 用 这 种 间接 映射 方法 的 最 佳 实践 存在 争论 [Mat031]。 最 终 霹 得 人 们 信任 
的 是 一 种 基于 OpenMP 工作 共享 (workshare ) 结构 的 方法 。 这 种 结构 称 为 taskqueue 
[SHPT00]。 该 方法 定义 了 两 种 新 数据 结构 : taskqueue 和 task。 程 序 员 使 用 taskqueue 
来 创建 任务 队列 。 在 taskqueue 结构 中 ，task 结构 定义 了 将 要 被 封装 到 任务 中 并 放置 到 
任务 队列 的 代码 块 。 线 程 组 (通常 由 一 个 并 行 构造 所 创建 ) 扮演 了 线程 池 的 角色 ， 从 队列 中 
取出 任务 并 执行 它们 ， 直 到 队列 为 空 。 

与 OpenMP 并 行 区 域 不 同 ，taskqueue 可 以 藤 套 并 产生 层次 任务 队列 。 线 程 使 用 任务 
偷 取 算法 来 处 理 这 些 任务 队列 ， 以 保持 在 所 有 任务 队列 为 空 之 前 ， 所 有 线程 都 繁忙 。 已 经 证 
明 这 种 方法 能 够 很 好 地 工作 [SHPT00]， 很 可 能 在 将 来 的 OpenMP 规范 中 被 采用 。 

5. 示例 

下 面 将 分 别 采 用 直接 映射 和 间接 映射 方法 实现 归并 排序 算法 。 间 接 映射 法 使 用 了 一 个 
Java 包 : FJTasks [Lea00b]。5.9 节 的 示例 中 开发 了 一 种 相似 的 但 更 简单 的 框架 。 

使 用 直接 映射 的 合并 排序 。 

如 图 5-29 所 示 ， 考 虑 一 个 实现 合并 排序 的 简单 方法 。 该 方法 对 数组 在 [10, ni] (包含 
Lo, 不 包含 hi) 之 间 的 元 素 进 行 排序 ， 通 过 调用 sort (A,0,A.length) 就 可 以 排序 整个 
数组 Ao 

static void sort(final int[] A,final int lo, final int hi) 

{ int n = hi - lo; 
//if not large enough to do in parallel, sort sequentially 
if (m <= THRESHOLD){ Arrays.sort(A,lo,hi); return; } 
ee array 


final int pivot = (hi*1lo)/2; 


//create and start new thread io sort louer half 
Thread t = new Thread() 
{ public void run() 

{ sort(A, lo, pivot); P. 


t.start(); 


//sort upper half in current thread 
sort(A,pivot,hi); 


//wait for other thread 


try{t.join() ;} : 
catch (InterruptedException e){Thread.dumpStack() ;} 


图 5-29 ”归并 排序 ， 其 中 每 个 任务 对 应 于 一 个 线程 
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//merge sorted arrays 

int(] ws = new int[n]; 
System.arraycopy(A,lo,ws,0,n); 
int wpivot = pivot - lo; 

int wlo = 0; 

int whi = wpivot; 

for (int i= lo; i != hi; i++) 


{ if((wlo < wpivot) && (whi >= n || ws[wlo] <= ws[whi])) 
{ Ali] = ws[wlo++]; } 
else { A[i] = ws[whi++]; } 





图 5-29 (2) 


该 方法 第 一 步 计 算 待 排序 的 数组 长 度 。 如 果 问 题 规 模 太 小 ， 以 至 于 不 值得 采用 并 行 方法 
进行 排序 ， 则 使 用 串 行 排序 算法 (在 这 个 示例 中 ， 使 用 java.util 包 中 的 Arrays 类 所 提供 
的 快速 排序 算法 )。 在 并 行 算法 中 ， 首 先 计算 一 个 支点 (pivot) 划分 竺 排序 数组 。 然 后 派生 出 
一 个 新 线程 对 数组 后 半 部 分 进行 排序 ， 父 线程 对 数组 前 半 部 分 进行 排序 。 新 任务 由 Thread 
类 的 一 个 匿名 内 部 子 类 的 run 方法 所 指定 。 新 线程 完成 排序 后 即 终 止 运行 ， 父 线程 完成 排序 
后 执行 聚合 操作 等 待 子 线程 运行 完成 。 最 后 父 线程 将 两 个 已 经 排序 的 数组 段 合并 在 一 起 。 

这 种 简单 方法 非常 适用 于 规则 问题 。 在 这 些 问 题 中 可 以 很 容易 地 确定 某 些 合理 的 国 值 。 
SHAR M( BREE : 如 果 立 值 太 小 ， 会 产生 过 多 UE 的 开启 和 销毁 操作 ， 可 能 会 导致 并 
行程 序 比 串 行程 序 还 要 慢 。 如 果 立 值 太 大 ， 则 无 法 完全 开发 潜在 的 并 行 性 。 

使 用 间接 映射 的 合并 排序 。 这 个 示例 使 用 了 FJTask 框架 ,该 框架 是 公共 域 包 EDU. 
Oswego.CS.dl.util.concurrent [Lea00b] 的 一 部 分 “>。 该 框架 不 是 创建 一 个 新 线程 
而 是 创建 FJTask (或 其 子 类 ) 的 一 个 实例 来 执行 每 个 任务 。 该 包 将 FJTask 对 象 动 态 映 
射 到 一 个 静态 线程 集 上 运行 。 尺 管 FJTask 对 象 的 通用 性 比 Thread 差 ， 但 它 比 Thread 
更 轻 ， 创 建 和 销毁 开销 更 低 。 图 5-30 和 图 5-31 演示 了 如 何 修改 合并 排序 示例 ， 以 使 用 
FJTask 对 象 取代 Java BE. Bri BAH EDU.Oswego.CS.dl.util.concurrent 
引入 。 如 图 $-30 所 示 ， 在 开始 实例 化 任何 FuTask 对 象 之 前 ， 必 须 首 先 实例 化 一 个 
FJTaskRunnerGroup 对 象 ， 该 语句 将 线程 数目 (组 大 小 ) 作为 参数 创建 构成 线程 池 的 一 
组 线程 。 一 旦 被 实例 化 ， 主 任务 就 会 被 FJTaskRunnerGroup 类 的 invoke 方法 所 调用 。 


int groupSize = 4; //number of threads 
FJTaskRunnerGroup group = new FJTaskRunnerGroup(groupSize) ; 
group.invoke(new FJTask() 

{ public void run() 


{ synchronized(this) 
{ sort(A,0, A.length); } 





5-30 ”实例 化 FJTaskRunnerGroup 并 调用 主任 务 


OQ ”这 个 包 是 Java 2 1.5 通过 JSRI66 引入 的 ， 是 支持 并 发 性 等 新 功能 的 基础 。 它 的 作者 Doug Lea 是 ISR 的 领 
导 者 。FJTask 框架 不 是 Java 2 1.5 的 一 部 分 ， 但 在 [Lea00b] 可 以 使 用 它 。 
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static void sort(final int[] A,final int lo, final int hi) { 
int n = hi - lo; 
if (n <= THRESHOLD){ Arrays.sort(A,lo,hi); return; } 
else { 
//split array 
final int pivot = (hi*10)/2; 


//override run method in FJTask to execute run method 
FJTask t = new FJTask() 
{ public void run() 
{ sort(A, lo, pivot); } 
hh 


//fork new task to sort lower half of array 
t.fork() ; 


//perform sort on upper half in current task 
sort(A,pivot,hi) ; 


//join with forked task 
t.joinO; 


//merge sorted arrays as before, code omitted 





图 5-31 使 用 FITask 框架 的 合并 排序 程序 


这 个 排序 例 程 与 前 面 的 版 本 相似 ,但 动态 任务 创建 由 FJTask 子 类 的 run 方法 (取代 了 
Thread FAA run 方法 ) 实现 。FJTask 的 fork 方法 与 join 方法 用 于 派生 和 聚合 任务 
(替代 了 Thread HJ start 和 join 方法 )。 尽 管 底 层 实现 不 同 ， 但 从 程序 员 的 角度 来 看 ， 
这 种 间接 方法 与 前 面 所 示 的 直接 实现 方法 类 似 。 

util.concurrent 类 的 FJTask 示例 中 提供 了 合并 排序 的 一 种 更 先进 的 并 行 实现 。 
这 个 包 还 包括 在 这 个 示例 中 没有 演示 的 功能 。 | 

知名 应 用 。FJTask 包 的 文档 描述 了 几 个 使 用 派生 /聚合 模式 的 应 用 程序 。 最 令 人 感 兴趣 
的 应 用 程序 包括 : Jacobi 和 迭代、 并 行 分 治 和 矩阵 乘法 、 标 准 并 行 处 理 基 准 程序 ( 仿真 了 网 格 中 
”的 热 扩 散 入 LU 矩阵 分 解 、 基 于 递归 高 斯 积分 法 的 积分 计算 和 显微镜 游戏 变 体 ”。 

因为 OpenMP 基于 派生 /聚合 编程 模型 ， 所 以 有 人 可 能 期 望 OpenMP 程序 员 大 量 使 用 
这 种 模式 。 但 事实 上 ， 大 多 数 程 序 员 使 用 循环 并 行 模式 或 者 SPMD 模式 。 这 是 因为 当前 的 
OpenMP 标准 并 不 能 很 好 地 支持 并 行 区 域 的 真正 黄 套 。 关 于 标准 OpenMP 中 使 用 这 种 模式 的 
出 版 物 很 少 ， 比 较 具 有 代表 性 的 是 一 篇 论述 了 在 LAPACK 的 一 种 实现 中 使 用 内 套 并 行 来 提供 
细 粒 度 并 行 性 的 论文 [ARv03]。 

对 OpenMP 进行 扩展 ， 使 得 它 能 够 在 大 量 应 用 程序 中 使 用 派生 /聚合 模式 ,已 经 成 为 一 
个 活路 的 研究 领域 。 我 们 已 经 提 到 了 一 种 为 该 模式 提供 间接 映射 解决 方案 的 研究 (任务 队列 
[SHPT00] )。 为 一 种 可 能 是 利用 显 式 线程 组 支持 藤 套 并 行 区 域 ， 为 这 种 模式 的 直接 映射 提供 解 
决 方案 (Nanos OpenMP ) 编译 器 [GAM'00]。 


O 根据 这 个 应 用 程序 的 文档 ， 这 是 一 个 通过 在 《The 7th Guest) (T7G: 用 于 PC 的 一 个 CD 一 ROM 游戏 ) 的 
实验 室 中 的 显微镜 玩 的 游戏 。 它 是 一 个 棋盘 游戏 ， 两 个 玩家 使 用 它们 的 卡片 填充 棋盘 中 的 空格 ， 有 点 类 似 
翻转 棋 和 奥赛 风 游 戏 。 


6. 相关 模式 

使 用 分 治 模式 的 算法 使 用 了 派生 /聚合 模式 。 

派生 线程 只 处 理 单个 并 行 循 环 的 循环 并 行 模式 是 派生 / 聚合 模式 的 一 个 实例 。 
使 用 共享 队列 模式 的 主 / 从 模式 ， 可 用 于 实现 间接 映射 法 。 


5.8 共享 数据 模式 


1. 问题 

如 何在 一 个 并 发 任务 集 内 显 式 地 管理 共享 数据 ? 

2. 背景 

大 多 数 算法 结构 模式 通过 一 些 技术 ， 将 共享 数据 “ 拉 ” 到 任务 集 之 外 ， 简 单 地 处 理 共享 
数据 。 如 任务 并 行 模 式 中 的 复制 和 归 约 以 及 几何 分 解 模式 中 的 计算 和 通信 的 交替 。 但 有 些 问 
题 无 法 应 用 这 些 技 术 ， 因 此 需要 在 并 发 任务 集 内 显 式 管理 共享 数据 。 

例如 ， 考 虑 LYWC'96 ] 中 描述 的 分 子 生 物 学 中 的 事物 演化 问题 (phylogeny problem ). 
事物 演化 是 一 棵 表示 生物 体 之 间 关 系 的 树 。 问 题 由 所 生成 的 作为 潜在 解决 方案 的 大 量子 树 
( 除去 那些 无 法 满足 各 种 一 致 性 条 件 的 子 树 ) 组 成 。 不 同 子 树 集 可 以 并 发 检测 ， 因 此 在 并 行事 
物 演 化 算法 中 ， 任 务 自 然 定 义 为 每 一 个 子 树 集 的 处 理 过 程 。 但 是 ， 并 不 需要 对 所 有 的 子 树 集 
进行 检测 一 一 如 果 集 合 $ 被 拒绝 , 则 $ 的 所 有 超 集 也 被 拒绝 。 这 样 ， 就 可 以 跟踪 竺 检测 的 子 
树 集 和 已 经 被 拒绝 的 子 树 集 。 鉴 于 该 算法 很 自然 地 分 解 为 一 些 近乎 独立 的 任务 〈 每 个 集合 对 
应 一 个 )， 这 个 问题 的 解决 方案 可 使 用 任务 并 行 模 式 。 但 是 ， 使 用 这 种 模式 比较 复杂 ， 因 为 
所 有 任务 均 需 要 读 写 被 拒绝 的 子 树 集 的 数据 结构 。 另 外 ， 因 为 这 种 数据 结构 在 计算 期 间 会 发 
生 改 变 ， 所 以 我 们 不 能 使 用 5.6 节 描 述 的 复制 技术 。 如 使 用 几何 分 解 模式 ， 划 分 该 数据 结构 ， 
并 基于 这 种 数据 分 解 设 计 一 种 解决 方案 ， 看 上 去 好 像 是 一 种 很 好 的 选择 。 但 是 元 素 被 拒绝 的 
方式 是 不 可 预测 的 ， 因 此 任何 类 型 的 数据 分 解 都 有 可 能 导致 很 差 的 负载 均衡 。 

当 必 须 在 一 个 并 发 任务 集中 显 式 管理 共享 数据 时 ， 也 会 产生 相似 的 难题 。 所 有 需要 共享 
数据 模式 的 问题 具有 以 下 共同 点 : 程序 执行 过 程 中 ， 至 少 一 个 数据 结构 被 多 个 任务 访问 ; 至 
少 一 个 任务 修改 共享 数据 结构 ; 在 并 发 计算 期 间 ， 任 务 可 能 需要 使 用 修改 值 。 

3. 面临 的 问题 
面 对 计 算 期 间 可 能 产生 的 任意 顺序 的 任务 ,计算 结 果 必 须 正确 。 

显 式 地 管理 共享 数据 会 产生 并 行 开销 ， 如 果 要 高 效 运 行程 序 ， 必 须 使 这 种 开销 尽 可 能 
小 。 
共享 数据 管理 技术 可 能 限制 并 发 运行 任务 的 数目 ， 从 而 降低 算法 的 可 扩展 性 。 

e 管理 共享 数据 的 结构 如 果 无 法 很 容易 理解 ， 程 序 的 维护 将 非常 困难 。 

4. 解决 方案 

在 设计 并 行 算 法 时 ， 显 式 管理 共享 数据 非常 容易 出 错 。 因 此 ， 一 种 很 好 的 方法 是 从 强调 
简单 性 和 抽象 清晰 性 的 解决 方案 开始 。 如 果 需 要 更 优 的 性 能 ， 再 尝试 较 复 杂 的 解决 方案 。 该 


解决 方案 反映 这 种 方法 。 


确保 需要 这 种 模式 。 第 一 步 确 信和 真 的 需要 这 种 模式 。 在 设计 过 程 中 ( 例如 ， 将 问题 分 解 
为 多 个 任务 )， 回 顾 早期 制定 的 策略 ， 查 看 这 些 策略 能 否 产生 一 种 适合 算法 结构 的 某 种 模式 的 
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解决 方案 ， 并 且 这 种 解决 方案 不 需要 显 式 管理 共享 数据 ， 是 非常 有 意义 的 。 例 如 ， 如 果 任 务 
并 行 模式 非常 适合 ， 则 值得 分 析 设 计 ， 并 查看 是 否 可 以 通过 复制 和 归 约 来 处 理 依赖 性 。 

定义 抽象 数据 类 型 。 假 设 必须 使 用 这 种 模式 ， 首 先 将 共享 数据 定义 为 一 种 带 有 具体 (可 
能 很 复杂 的 ) 操作 集 的 抽象 数据 类 型 (ADT )。 例 如 ， 如 果 共 享 数 据 结 构 是 队列 (参见 5.9 
节 )， 则 操作 集 包 括 入 队 、 出 队 、 判 断 队 列 是 否 为 室 、 判 断 一 个 指定 元 素 是 否 存在 等 操作 。 每 
个 任务 通常 会 执行 一 系列 操作 ， 这 些 操作 应 当 具 有 一 个 特点 : 如 果 它 们 串 行 执行 〈( 一 次 执行 
一 个 ,不 受 其 他 任务 的 干扰 )， 每 个 操作 都 必须 保证 数据 的 一 致 性 。 

每 个 操作 的 实现 很 可 能 包含 一 个 底层 操作 序列 ， 这 些 操作 的 结果 对 其 他 UE 应 当 是 不 可 
见 的 。 例 如 ， 如 果 使 用 链表 实现 前 面 提 到 的 队列 ， 则 出 队 操 作 实际 上 包含 一 个 较 低层 操作 序 
列 (而 较 低层 操作 本 身 由 一 个 更 低层 操作 序列 组 成 )。 

1 ) 根据 变量 first 获得 列表 中 第 一 个 对 象 的 引用 。 

2 ) 根据 第 一 个 对 象 ， 获 得 列表 中 第 二 个 对 象 的 引用 。 

3) H first 值 修订 为 第 二 个 对 象 的 引用 。 

4) 更 新 列表 的 大 小 。 

5) 返回 第 一 个 元 素 。 

如 果 两 个 任务 并 发 执行 出 队 操作 ， 而 且 这 些 较 低层 的 操作 交错 执行 (出 队 操 作 不 是 以 原 
子 方式 执行 )， 则 很 容易 产生 不 一 致 的 链表 。 

实现 一 种 合理 的 并 发 控制 协议 。 在 确定 了 ADT 及 其 操作 集 之 后 ， 还 要 实现 一 种 并 发 控制 
协议 ， 以 确保 这 些 操作 能 像 串 行 地 执行 一 样 给 出 相同 结果 。 这 可 以 通过 多 种 方式 实现 ， 首 先 
使 用 一 种 最 简单 的 技术 ， 如 果 该 技术 无 法 满足 性 能 需求 ， 再 尝试 使 用 一 些 更 复杂 的 技术 。 车 
一 种 较 复 杂 的 技术 依然 无 法 满足 需求 ， 可 以 组 合 使 用 这 些 技术 。 

一 次 执行 一 个 操作 。 最 简单 的 解决 方案 是 确保 所 有 操作 串 行 执行 。 

在 共享 内 存 环 境 中 ， 实 现 这 种 方法 最 简单 的 方式 是 将 每 一 个 操作 都 作为 临界 区 的 一 部 分 ， 
并 使 用 互 斥 协 议 确保 一 次 只 有 一 个 UE 正在 执行 。 这 意味 着 所 有 对 数据 的 操作 都 是 互 斥 的 。 
如 何 实现 这 种 方式 依赖 于 目标 编程 环境 的 设施 。 典 型 的 方法 包括 互 斥 锁 、 同 步 块 、 临 界 区 和 
信和 号 量 。 这 些 机 制 在 第 6 章 中 有 详细 描述 。 如 果 编 程 语言 本 身 支 持 这 些 抽 象 数据 类 型 的 实现 ， 
一 个 合理 的 做 法 是 将 每 一 个 操作 实现 为 一 个 过 程 或 方法 ， 并 且 在 方法 本 身 中 实现 互 斥 协议 。 

在 一 个 消息 传递 环境 中 ， 确 保 串 行 执行 的 最 简单 方式 是 将 共享 数据 结构 分 配给 一 个 特定 
UE。 每 一 个 操作 对 应 于 一 种 消息 类 型 ， 其 他 进程 通过 向 管理 该 数据 结构 的 UE 发 送 消 息 申请 
操作 ， 管 理 数 据 结 构 的 UE 串 行 处 理 这 些 请 求 。 

在 这 两 种 环境 中 ， 实 现 这 种 方式 并 不 困难 。 但 这 种 方式 太 过 保守 (甚至 不 允许 并 发 执 发 
能 够 安全 同步 执行 的 操作 )， 并 且 它 可 能 会 成 为 性 能 瓶颈 。 如 果 发 生 这 种 情况 ， 应 当 对 本 节 所 
描述 的 其 他 方法 进行 评估 ， 找 到 一 种 能 够 降低 或 消除 这 种 瓶颈 并 提供 更 优 性 能 的 方法 。 

非 干扰 的 操作 集合 。 分 析 操 作 间 的 干扰 性 是 提高 性 能 的 一 种 方法 。 如 果 操 作 A 对 操作 
B 将 要 读 取 的 一 个 变量 进行 写 操作 ， 则 认为 操作 A 干扰 操作 B。 如 果 多 个 任务 执行 相同 操作 
(例如 ， 多 个 任务 对 一 个 共享 队列 执行 出 队 操作 )， 则 认为 操作 存在 自 干 扰 。 所 有 操作 可 能 划 
分 为 两 个 不 相交 的 集合 ， 不 同 集合 的 操作 互 不 干扰 。 在 这 种 情况 下 ， 可 将 每 一 个 集合 定义 为 
一 个 临界 区 ， 以 增加 并 发 性 。 即 在 集合 内 部 一 次 执行 一 个 操作 ， 但 不 同 集合 的 操作 可 以 并 发 
执行 。 
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读 访问 者 / 写 访问 者 。 如 果 没 有 一 种 简单 方法 将 操作 划分 为 不 相交 的 集合 ， 则 考虑 干扰 
类 型 。 可 能 会 出 现 这 样 一 种 情况 ， 某 些 操 作 修 改 数据 ， 而 其 他 操作 仅仅 读 取 数 据 。 例 如 ， 如 
果 操 作 A 是 一 个 写 访问 者 ( 既 读 数据 又 写 数 据 )， 操 作 B 是 一 个 读 访问 者 〈 只 读数 据 )， 操 
作 A 干扰 自己 和 操作 B， 但 操作 B 不 干扰 自己 。 如 果 一 个 任务 正在 执行 操作 A， 则 不 应 该 有 
其 他 任务 正在 执行 操作 A 或 操作 B。 但 任意 数量 的 任务 都 应 当 能 并 发 执行 操作 B。 在 这 种 情 
况 下 ， 值 得 实现 一 种 读 访问 者 / 写 访问 者 协议 ,该 协议 将 允许 挖掘 这 种 潜在 的 并 发 性 。 注 意 ， 
管理 读 访 问 者 / 写 访 问 者 协议 的 开销 大 于 管理 简单 互 斥 锁 的 开销 ， 因 此 对 读 访 问 者 访问 数据 
的 计算 应 当 足 够 复杂 ， 使 得 这 种 开销 具有 价值 。 另 外 ， 读 访问 者 的 数目 应 该 远大 于 写 访问 者 。 

java.util.concurrent 包 提 供 了 支持 读 访 问 者 / 写 访问 者 协议 的 读 / 写 锁 。 图 5-32 
中 的 代码 演示 了 这 些 锁 的 一 般 使 用 方式 : 首先 实例 化 ReadwriteLock， 然 后 获得 其 读 写 锁 。 
ReentrantReadWriteLock 是 一 个 实现 ReadWriteLock 接口 的 类 。 当 执行 读 操 作 时 ， 
将 读 锁 上 锁 。 当 执行 写 操 作 时 ， 将 写 锁 上 锁 。 锁 的 语义 是 : 任意 数目 的 UE 可 以 同时 拥有 读 
w, 但 写 锁 是 专 有 的 。 即 仅 有 一 个 UE 可 以 拥有 写 锁 ， 并 且 如 果 写 锁 被 某 一 UE 拥有 ， 其 他 
UE 也 就 不 能 拥有 读 锁 。 


class X { 
ReadWriteLock rw = new ReentrantReadWriteLock(); 


/*operation A is a writer*/ 
public void A() throws InterruptedException { 
rw.writeLock().lock(); //lock the write lock 
try i 
// ... do operation 4 
} 
finally { 
rw.writeLock().unlock(); //unlock the write lock 
} 
} 


/*operation B is a reader*/ 
public void B() throws InterruptedException { 
rw.readLock().lock(); //lock the read lock 


.. do operation B 


finally { 
rw.readLock().unlock(); //unlock the read lock 





图 5-32 读 / 写 锁 的 典型 使 用 方式 。 这 些 锁定 义 在 java.util.concurrentlocks 包 中 。 
f£ finally 块 中 调用 unlock 方法 ， 以 确保 无 论 cry 块 如何 退 出 (正常 或 异常 退出 )， 
该 锁 都 将 被 解锁 。 这 是 Java 程序 使 用 锁 ( 而 不 是 同步 块 ) 的 一 种 标准 惯例 


在 [And00] 和 大 多 数 操作 系统 书籍 中 都 讨论 了 读 访问 者 / 写 访问 者 协议 。 

缩减 临界 区 的 大 小 。 更 详细 地 分 析 操 作 的 实现 是 提高 性 能 的 另 一 种 方法 。 可 能 会 出 现 这 
样 一 种 情况 : 操作 仅 有 某 一 部 分 的 子 操作 会 与 其 他 操作 相干 扰 。 如 果 这 样 ， 则 可 缩减 临界 区 
的 大 小 。 注 意 ， 这 种 优化 非常 容易 出 错 。 因 此 ， 仅 当 这 种 方法 能 够 显著 提高 性 能 并 且 程 序 员 
对 操作 间 的 干扰 完全 理解 时 ， 才 能 应 尝试 使 用 。 


骸 套 锁 。 这 种 方法 是 前 面 两 种 方法 ( 非 干 扰 操作 和 缩减 临界 区 大 小 ) 的 一 种 混合 技术 。 
假设 定义 一 种 具有 两 种 操作 的 ADT。 操 作 A 首先 多 次 读 并 更 新 变量 x， 然 后 在 单条 语句 中 读 
并 更 新 变量 y. EB 读 并 写 Y。 有 些 分 析 认 为 : 所 有 执行 A 的 UE mH, PAHIT B 
的 UE 也 需要 互 斥 。 又 因为 这 两 种 操作 都 读 并 更 新 变量 y， 所 以 操作 A 和 B 也 需要 互 斥 。 但 
通过 进一步 分 析 会 发 现 ， 这 两 种 操作 几乎 是 非 干 扰 的 。 如 果 不 是 因为 一 条 语句 (在 该 语句 
H, a 读 并 更 新 y )， 这 两 种 操作 可 以 在 各 自 的 临界 区 中 实现 ， 这 将 使 A 和 B 能 够 并 发 执行 。 
图 5-33 展示 了 一 种 使 用 两 个 锁 的 解决 方案 : A 为 整个 操作 获取 并 拥有 locka, B 为 整个 操作 
获取 并 拥有 lockB, A 仅 为 更 新 Y 的 语句 获取 并 拥有 lockB. 


class Y { 
Object lockA = new Object(); 
Object lockB = new Object(); 


void A() 
{ synchronized (lockA) 
{ 


....COmpute.... 
synchronized(lockB) 

{ ....read and update y.... 
} 


} 
} 


void B() throws InterruptedException 
{ synchronized(lockB) 
{ ...compute.... 


} 
} 





图 5-33 REMIR BI, synchronized 代码 块 定 义 了 两 个 虚拟 对 象 : Locka 和 LockB 


当 使 用 艇 套 锁 时 ， 程 序 员 应 仔细 复查 代码 以 防止 死 锁 。 上 面 例 子 中 死 锁 的 典型 示例 是 : 
首先 RAR 获得 lockA，B 获得 lockB ; 然后 A 尝试 获取 1ockB，B 尝试 获取 lockA。 现 在 两 
个 操作 都 无 法 继续 执行 。 解 决 死 锁 的 方法 为 : 定义 一 种 锁 偏 序 ， 并 确保 操作 总 是 以 偏 序 所 指 
定 的 顺序 获取 锁 。 在 前 面 的 示例 中 ， 假 设 我 们 定义 锁 偏 序 lockA<lockB， 并 确保 1ockA 永 
远 不 会 被 一 个 已 经 获取 lockB 的 UE 所 获取 。 

特定 应 用 的 语义 释放 。 男 外 一 种 方法 是 复制 部 分 共享 数据 ( [YWC 96] 中 描述 的 软件 组 
存 )， 在 不 影响 计算 结果 的 前 提 下 ， 甚 至 允许 这 些 副 本 不 一 致 。 例 如 ， 前 面 描 述 的 事物 演化 问 
题 的 分 布 式 存 顺 储 器 解决 方案 ， 可 以 将 被 拒绝 的 集合 副本 赋 给 每 个 UE， 并 且 人 允许 这 些 副 本 不 
同步 ; 任务 可 以 做 其 他 额外 的 工作 (拒绝 一 个 已 经 被 其 他 UE 上 的 一 个 任务 所 拒绝 的 集合 )， 
但 这 些 额 外 的 工作 不 会 影响 计算 结果 ， 并 且 与 保持 所 有 副本 同步 的 通信 开销 相 比 ， 它 更 高 效 。 

回顾 其 他 考虑 事项 。 内 存 同 步 。 确 保 内 存 同 步 (根据 需要 ) : 缓存 和 编译 器 优化 会 导致 
与 共享 变量 相关 的 不 期 望 的 行为 。 例 如 ， 从 绥 存 或 寄存 器 中 读 到 的 是 变量 的 旧 值 ， 而 不 是 另 
一 个 任务 写 人 的 最 新 值 ， 或 者 最 新 值 还 没有 写 人 内 存 中 (在 这 种 情况 下 ， 该 值 对 其 他 任务 不 
可 见 )。 虽 然 大 多 数 情况 下 ， 存 储 融 同步 由 较 高 级 别 的 同步 原 语 隐 式 完成 ， 但 仍 需 关 注 这 个 问 
题 。 遗 憾 的 是 ， 存 储 器 同步 技术 与 平台 特别 相关 。 例 如 ， 在 OpenMP 中 ， 可 以 使 用 flush 指令 
显 式 地 同步 内 存 ( 该 指令 将 被 其 他 几 条 指令 隐 式 调用 ); Æ Java 中 ， 当 进入 和 离开 一 个 同步 
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区 域 时 ， 存 储 器 被 隐 式 同步 ; 在 Java 2 1.5 环境 下 ， 当 执行 加 锁 和 解锁 操作 时 ， 存 储 需 被 隐 式 
同步 。 另 外 ， 将 变量 标识 为 volatileg， 相 关 存 储 器 也 被 隐 式 同步 。 第 6 章 将 更 详细 地 讨论 这 一 
H8. 

任务 调度 。 这 种 模式 对 数据 依赖 性 的 显 式 管理 是 否 会 影响 任务 调度 ? 实现 良好 的 负载 均 
衡 是 任务 调度 的 主要 目标 。 除 了 在 第 4 章 中 所 描述 的 因素 之 外 ， 还 应 当 考 虑 任务 可 能 会 因为 
等 待 访问 共享 数据 而 被 悬挂 。 可 以 尝试 一 种 能 够 最 小 化 这 种 等 待 的 任务 分 配方 式 ， 或 者 为 每 
^ UE 分 配 多 个 任务 ， 期 望 每 一 个 UE 上 总 是 存在 一 个 不 等 待 访问 共享 数据 的 任务 。 

5. 示例 

共享 队列 。 共 享 队列 是 一 种 经 常 使 用 的 ADT， 而 且 是 共享 数据 模式 的 一 个 非常 好 的 示 
例 。5.9 节 讨 论 了 并 发 控制 协议 和 高 效 共享 队列 的 技术 。 

用 于 非 线 性 优化 的 遗传 算法 。 考 虑 SPEC OMP2001 基础 套件 [ADE"0I] 中 的 GAFORT 程 
序 。GAFORT 是 一 个 小 Fortran 程序 (KA 1500 行 )， 实现 了 一 个 用 于 非 线 性 优化 的 遗传 算 
法 。 该 算法 的 计算 主要 由 整数 运算 组 成 ， 程 序 性 能 瓶颈 是 需要 在 存储 器 子 系统 中 移动 大 量 数 
据 数组 。 

对 本 节 内 容 来 说 ， 遗 传 算法 的 细节 并 不 重要 。 基 于 [EM] 中 对 GAFORT 的 讨论 ， 我 们 将 
重点 考虑 GAFORT 中 的 某 个 循环 ， 其 串 行 版 本 的 伪 代 码 如 图 5-34 所 示 。 该 循环 对 所 有 染色 
体重 新 排序 ， 其 运行 时 间 占 到 一 个 典型 GAFORT 作业 的 大 约 36% [AR031]。 





Int const NPOP // number of chromosomes (~40000) 
Int const NCHROME // length of each chromosome 


Real :: tempScalar 

Array of Real :: temp(NCHROME) 

Array of Int :: iparent(NCHROME, NPOP) 
Array of Int :: fitness(NPOP) 

Int :: j, iother 


loop [j] over NPOP 
iother = rand(j) // returns random value greater 
// than or equal to zero but not 
// equal to j and less than NPOP 


// Swap Chromosomes 

temp(1:NCHROME) = iparent(1:NCHROME, iother) 
iparent(1:NCHROME, iother) = iparent(1:NCHROME, j) 
iparent(1:NCHROME, j) = temp(1:NCHROME) 


// Swap fitness metrics 
tempScalar = fitness(iother) 
fitness(iother) = fitness(j) 
fitness(j) = tempScalar 


end loop [j] 


图 5-34 ”遗传 算法 程序 GAFORT 中 对 所 有 染色 体 进 行 重新 排序 的 伪 代 码 


该 程序 的 一 个 并 行 版 本 将 使 用 循环 并 行 模式 来 并 行 化 该 循环 。 在 这 个 示例 中 ，iparent 
和 ftness 数组 为 共享 数据 。 循 环 体内 包含 这 两 个 数组 的 计算 由 交换 iparent 数组 的 两 个 
元 素 和 交换 fitness 的 对 应 元 素 组 成 。 对 这 些 操作 的 分 析 表 明 ， 当 在 两 个 交换 操作 中 至 少 有 
一 个 相同 的 交换 位 置 时 ， 这 两 个 操作 为 “干扰 ”操作 。 
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将 共享 数据 看 作 一 个 ADT， 将 有 助 于 识别 并 分 析 对 共享 数据 的 操作 。 但 是 ， 这 并 不 意味 
着 实现 本 身 始终 需要 反映 这 种 结构 。 在 某 些 情形 中 ， 特 别 是 数据 结构 比较 简单 旦 编程 语言 不 
能 很 好 地 支持 ADT HI, WF ADT 所 隐 含 的 封装 并 直接 处 理 数 据 ， 可 能 更 高 效 。 本 示例 就 演 
示 了 这 种 情形 。 

前 面 提 到 ， 交 换 染 色 体 操作 可 能 是 彼此 “干扰 ”的 : 因此 作用 在 j 上 的 循环 不 能 安全 并 
行 执行 。 最 简单 的 方法 是 使 用 临界 区 强制 执行 “一 次 只 执行 一 个 操作 ”协议 ， 如 图 5-35 所 
示 。 也 需要 修改 随机 数 产 生 规 ， 使 得 当 它 被 多 个 线程 并 行 调用 时 ， 能 够 产生 一 致 的 伪 随 机 数 

合 。 完 成 这 个 任务 的 算法 很 好 理解 [Mas971]， 这 里 不 再 讨论 。 


#include <omp.h> 
Int const NPOP // number of chromosomes (~40000) 
Int const NCHROME // length of each chromosome 


Real :: tempScalar 

Array of Real :: temp(NCHROME) 

Array of Int :: iparent(NCHROME, NPOP) 
Array of Int :: fitness(NPOP) 

Int :: j, iother 


#pragma omp parallel for 
loop [j] over NPOP 
iother = par_rand(j) // returns random value greater 
// than or equal to zero but not 
// equal to 7 and less than NPOP 


#pragma omp critical 
// Swap Chromosomes 


temp(1:NCHROME) = iparent(1:NCHROME, iother) 
iparent(1:NCHROME, iother) = iparent(1:NCHROME, j) 


iparent(1:NCHROME, j) = temp(1:NCHROME) 


// Swap fitness metrics 
tempScalar = fitness(iother) 
fitness(iother) = fitness(j) 
fitness(j) = tempScalar 
} 
end loop [j] 





图 5-35 ”遗传 算法 程序 GAFORT 中 对 所 有 染色 体 进行 并 行 重 新 排序 算法 的 低 效 方法 的 伪 代 码 


图 5-35 中 的 代码 可 以 通过 多 个 线程 运行 ， 但 当 线 程 数目 不 断 增 多 时 ， 程 序 性 能 将 不 会 提 
高 。 事 实 上 ， 线 程 数 目 过 多 时 ， 程 序 性 能 会 降低 。 这 是 因为 当 线程 在 临界 区 等 待 执行 时 ， 它 
们 会 浪费 系统 资源 。 事 实 上 ， 并 发 控制 协议 消除 了 所 有 的 可 用 并 发 性 。 

该 问题 的 解决 方案 基于 以 下 事实 : 仅 当 两 个 对 共享 数据 的 交换 操作 中 至 少 有 一 个 相同 的 
交换 位 置 时 ， 这 两 个 操作 才 是 “干扰 ”的 。 因 此 ， 使 用 藤 套 锁 并 发 控制 协议 ， 当 循环 迭代 操 
作 不 “干扰 ”时 ， 仅 会 添加 少量 的 开销 。[ADE"01] 中 使 用 的 方法 是 为 每 一 个 染色 体 创建 一 个 
OpenMP 锁 。 图 5-36 展示 了 这 种 方法 的 伪 代 码 。 在 最 终 程 序 中 ， 实 际 上 大 多 数 循环 迭代 不 相 
H. “FHR” o WEA NPOP (在 SPEC OMP2001 基准 测试 中 是 40 000 个 ) 远大 于 UE 的 数 
目 ， 循 环 和 迭代 间 相 互 干 扰 的 几率 非常 小 。 
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#include <omp.h> 
Int const NPOP // number of chromosomes (~40000) 
Int const NCHROME // length of each chromosome 


Array of omp lock t :: lck(NPOP) 


Real :: tempScalar 

Array of Real :: temp(NCHROME) 

Array of Int :: iparent(NCHROME, NPOP) 
Array of Int :: fitness(NPOP) 

Int :: j, iother 


// Initialize the locks 
#pragma omp parallel for 
for (j=0; j«NPOP; j++){ omp init lock (&lck(j)) ) 


#pragma omp parallel for 
for (j=0; j«NPOP; j++){ 
iother = par rand(j) // returns random value >= 0, != j, 
// « NPOP 

if (j < iother) { 
set omp lock (1ck(j)); set omp lock (lck(iother)) 

} 

else { 
set omp lock (lck(iother)); set omp lock (lck(j)) 

} 


// Swap Chromosomes 

temp(1:NCHROME) = iparent(1:NCHROME, iother) ; 
iparent(1:NCHROME, iother) = iparent(1:NCHROME, j); 
iparent(1:NCHROME, j) = temp(1:NCHROME); 


// Swap fitness metrics 
tempScalar = fitness(iother) 
fitness(iother) = fitness(j) 
fitness(j) = tempScalar 


if (j < iother) { 

unset omp lock (lck(iother)); unset_omp_lock (lck(j)) 
} 
else { 

unset omp lock (lck(j)); unset_omp_lock (lck(iother)) 


} 
) // end loop [jJ 





图 5-36 ”遗传 算法 程序 GAFORT "TJI Pr Ue RET BK SET RAI IS 
代码 。 这 个 版 本 为 每 个 染色 体 都 使 用 一 个 独立 的 锁 ， 并 能 高 效 地 并 行 执行 


OpenMP 锁 的 详细 描述 见 附录 A. OpenMP 锁 为 一 种 不 透明 的 数据 类 型 omp lock t, 
该 类 型 定义 在 omp.n 头 文件 中 。 在 上 面 的 示例 中 ， 锁 数组 定义 在 一 个 独立 的 并 行 循环 中 ， 并 被 
初始 化 。 在 染色 体 交 换 循 环 中 ， 首 先 为 每 对 被 交换 的 染色 体 设置 锁 ， 然 后 执行 交换 操作 ， 最 后 
解锁 。 因 为 使 用 了 瞬 套 锁 ， 所 以 必须 考虑 出 现 死 锁 的 可 能 性 。 这 里 的 解决 方案 是 使 用 与 铠 关联 
的 数组 元 素 索 引 值 来 对 锁 排 序 。 当 一 对 循环 迭代 碰巧 在 同一 时 间 交 换 两 个 相同 元 素 时 ， 按 照 这 
种 顺序 获取 锁 能 够 阻止 死 锁 的 发 生 。 在 更 高 效 的 并 发 控制 协议 实现 后 ， 程 序 能 很 好 地 并 行 运行 。 

知名 应 用 。[YWC'96] 中 描述 了 背景 部 分 中 所 讨论 的 事物 演变 问题 的 一 种 解决 方案 。 总 体 
方法 适合 任务 并 行 模式 ; 使 用 复制 和 周期 更 新 方法 来 显 式 管理 已 被 拒绝 集合 的 数据 结构 ， 周 
期 更 新 是 为 了 重新 建立 副本 间 的 一 致 性 。 

[YWC 96] 中 介绍 的 另外 一 个 问题 是 Gróbner 基本 程序 。 在 这 个 应 EUR 中 ， 省 略 了 大 部 
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分 细节 ， 计 算 由 下 面 几 个 部 分 组 成 : 首先 使 用 多 项 式 对 产生 新 的 多 项 式 ， 然 后 将 它们 与 一 个 
多 项 式 主 集合 进行 比较 ， 最 后 将 那些 不 是 由 主 集合 中 的 元 素 线性 组 合 而 成 的 多 项 式 添 加 到 主 
集合 中 ( 主 集合 中 的 元 素 用 于 生成 新 的 多 项 式 对 )。 由 于 不 同 的 多 项 式 对 可 以 并 发 处 理 ， 因 此 
可 以 为 每 一 个 多 项 式 对 定义 一 个 任务 ， 并 将 它们 分 配给 UE. [YWC 96] 中 描述 的 解决 方案 适 
合 任 务 并 行 模式 (具有 一 个 由 多 项 式 对 组 成 的 任务 队列 )， 并 且 使 用 一 种 称 为 软件 缓存 的 特定 
应 用 程序 协议 来 显 式 地 管理 主 集合 。 

6. 相关 模式 

5.9 4815.10 市 讨论 特定 的 共 侍 数据 结构 类 型 。 许 多 使 用 共享 数据 模式 的 问题 为 它们 的 
算法 结构 使 用 了 任务 并 行 模式 。 


5.9 共享 队列 模式 


1. 问题 

并 行 执行 的 UE 如 何 安全 共享 队列 数据 结构 ? 

2. 背景 

许多 并 行 算法 的 高 效 实现 需要 构建 将 被 所 有 UE 共享 的 队列 数据 结构 。 最 常见 的 情况 是 

使 用 主 /从 模式 的 程序 。 

3. 面临 的 问题 

e 简单 的 并 发 控制 协议 提供 了 较 好 的 抽象 清晰 性 ， 这 使 得 程序 员 更 容易 验证 共享 队列 实 
现 的 正确 性 。 


e 如 果 在 单个 同步 结构 中 包含 过 多 的 共享 队列 ， 并 发 控制 协议 将 增加 UE 被 阻塞 的 几率 
(UE 等 待 访问 共享 队列 )， 并 减少 并 发 性 。 
e 如 有 果 要 实现 并 发 控制 协议 与 共享 队列 很 好 的 协调 ， 并 增加 并 发 性 ， 需 要 更 复杂 但 更 易 
出 错 的 同步 结构 。 
e 具有 复杂 内 存 层 次 的 计算 机 系统 (如 NUMA 机 器 和 集群 ) 维持 单个 队列 会 导致 大 量 
通信 ， 并 增加 并 行 开 销 。 因 此 ， 可 能 需要 划分 队列 抽象 ， 使 用 多 个 或 分 布 式 队列 。 
4. 解决 方案 
理想 情况 下 ， 共 享 队 列 应 作为 目标 编程 环境 的 一 部 分 ， 要么 显 式 实现 为 程序 员 可 用 的 一 
种 ADT， 要 么 隐 陈 实现 为 支持 使 用 共享 队列 的 较 高 级 别 模式 (如 主 / 从 模式 )。 在 Java 2 1.5 
中 ， 可 在 java.util.concurrent 包 中 获得 这 样 的 队列 。 本 节 内 容 将 从 零 开 始 开发 实现 ， 
以 演示 这 些 概念 。 | 
FEES BASE RT BAL TE RAE. Boc HU HG LY DAG DE TEARARTE ; 其 次 还 有 性 
能 考虑 ( 特别 是 当 大 量 UE 访问 共享 队列 时 ); 再 次 ， 可 能 需要 更 复杂 的 同步 操作 Bn. TE 
菏 些 情况 下 ， 可 能 需要 分 布 式 队列 ， 以 消除 性 能 瓶颈 。 
然而 ， 如 果 需 要 实现 共享 队列 ， 可 以 将 其 实现 为 共享 数据 模式 的 一 个 实例 : 首先 定义 队 
列 的 ADT， 包 括 队 列 值 及 其 操作 集合 ; 然后 定义 并 发 控制 协议 ， 从 最 简单 的 “一 次 执行 一 个 
操作 ”的 解决 方案 开始 ， 并 逐步 改善 。 为 使 讨论 更 为 具体 ， 我 们 将 从 一 个 特定 问题 出 发 定义 
队列 : 在 一 个 主 /从 模式 算法 中 实现 一 个 存储 任务 的 队列 。 尽 管 如 此 ， 这 里 讨论 的 解决 方案 
是 通用 的 ， 可 以 方便 地 进行 扩展 ， 以 应 用 于 共享 队列 的 其 他 应 用 中 。 
抽象 数据 类 型 ( ADT )。ADT 包含 一 个 值 集 以 及 定义 在 这 些 值 集 上 的 操作 。 对 于 队列 来 
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说 ， 值 集 是 包含 某 种 类 型 的 0 个 或 多 个 对 象 的 有 序列 表 ( 例如 ， 整 数 或 者 任务 ID). WHA 
ABA (put) 和 出 队 〈take ) 两 个 操作 。 在 某 些 情况 下 ， 队 列 可 能 会 包含 更 多 的 操作 。 但 对 于 
本 节 的 讨论 来 说 ， 这 两 种 操作 已 经 足够 了 。 

我 们 必须 明确 当 对 一 个 空 队 列 执行 出 队 操作 时 的 处 理 方式 。 这 依赖 于 主 /从 模式 算法 所 
采用 的 终止 方式 。 例 如 ， 假 设 所 有 任务 都 是 master 启动 时 创建 的 ， 那 么 空 任 务 队 列 意 味 着 该 
UE 应 当 终 止 操作 。 我 们 希望 空 队列 的 出 队 操 作 能 够 根据 一 个 标记 队列 为 空 的 标识 立即 返回 ， 
即 非 阻塞 队列 。 另 外 一 种 可 能 的 情况 是 ， 任 务 是 动态 创建 的 ， 只 有 接收 到 一 个 特定 poison-pill 
任务 时 ，UE 才 终 止 操作 。 在 这 种 情况 下 ， 对 于 空 队 列 的 出 队 操作 来 说 ， 合 理 的 行为 应 该 是 等 
待 直到 队列 非 空 。 即 当 队 列 为 空 时 ， 阻 塞 队 列 访问 。 

“一 次 只 执行 一 个 操作 ”的 队列 

非 阻 塞 队 列 。 因 为 队列 将 被 并 发 访问 ， 所 以 必须 定义 并 发 控制 协议 ， 以 确保 不 会 发 生 多 个 
UE 相互 干扰 的 情况 。 如 5.8 节 所 述 ， 最 简单 的 解决 方案 是 使 所 有 ADT 操作 互 斥 。 因 为 队列 操 
作 不 会 被 阻塞 ， 所 以 可 以 采用 互 质 的 一 种 简单 实现 方式 〈 在 第 6 章 中 有 详细 描述 )。 图 5-37 所 
示 的 Java 实现 使 用 链表 来 存放 队列 中 的 任务 ( 我们 开发 了 自己 的 列表 类 ， 以 演示 如 何 添加 合 
理 的 同步 操作 。 所 以 并 没有 使 用 其 他 已 有 的 非 同步 类 库 ， 如 java.util.LinkedList 或 者 
java.util.concurrent 包 中 一 个 类 )。 其 中 head 指向 一 个 始终 存在 的 虚拟 节点 ”。 


public class SharedQueuel 


class Node //inner class defines list nodes 
{ Object task; 
Node next; 


Node(Object task) 
{this.task = task; next = null;} 


private Node head = new Node(null); //dummy node 
private Node last = head; , 


public synchronized void put(Object task) 

( assert task != null: "Cannot insert null task"; 
Node p = new Node(task); 
last.next = p; 
last = p; 


public synchronized Object take() 
{ //returns first task in queue or null if queue is empty 
Object task = null; 
if (!isEmpty() 
{ Node first = head.next; 
task = first.task; 
first.task = null; 
head = first; 


return task; 


private boolean isEmpty(){return head.next == null;} 





图 5-37 ”该 队列 确保 一 次 最 多 有 一 个 线程 能 够 访问 。 如 果 队 列 为 空 ， 立 即 返回 null 


© take 操作 使 原 head 节点 成 为 虚拟 节点 ， 而 不 是 简单 的 操作 next 指针 。 这 使 得 后 面 可 以 优化 代码 ， 使 
put 和 take 操作 并 发 执行 。 


队列 中 的 第 一 个 任务 ( 如 果 存 在 ) 存放 在 head.next 所 指向 的 节点 中 。isEmpty 函数 
是 私有 的 ， 仅 在 同步 函数 的 内 部 调用 。 这 样 实现 的 好 处 是 它 不 需要 同步 操作 ( 如 果 是 公共 的 ， 
则 它 也 需要 同步 操作 )。 当 然 ， 任 务 结构 的 实现 存在 很 多 方式 。 

当 队 列 为 空 时 ， 阻 塞 访问 。 图 5-38 展示 了 共享 队列 的 第 二 个 版 本 。 该 版 本 修改 了 take 
操作 : 当 线 程 尝 试 对 空 队列 执行 take 操作 时 ， 不 是 立即 返回 而 是 等 待 ， 直 到 新 任务 出 
现 。 线 程 等 待 时 释放 它 所 拥有 的 锁 ， 在 尝试 进行 下 一 次 操作 之 前 ， 再 重新 获取 它 。Java 使 用 
wait 和 notify 方法 完成 这 个 功能 ， 相 关 详 细 描 述 见 附录 C。 附 录 C 还 展示 了 使 用 java. 
util.concurrent.locks 包 中 的 锁 实现 的 队列 。 该 包 由 Java 2 1.5 引入， 用 于 替代 wait 
和 notify KX POSIX 线程 ( Pthread )[But97 IEE] 可 以 使 用 相似 原 语 ， 读 者 可 以 在 [And00] 
中 找到 利用 信和 号 量 实现 这 种 功能 的 技术 和 其 他 的 一 些 基本 原 语 。 


public class SharedQueue2 


class Node 
{ Object task; 
Node next; 


Node(Übject task) 
{this.task = task; next = null;} 
} 


private Node head = new Node(null); 
private Node last - head; 


public synchronized void put(Object task) 
{ assert task !- null: "Cannot insert null task"; 
Node p = new Node(task); 
last.next = p; 
last = p; 
nctifyAllO; 


public synchronized Object take() 
( //returns first task in queue, waits if queue is empty 
Object task = null; 
while (isEmpty ()) 
{try{wait( ;}catch(InterruptedException ignore) {}} 
{ Node first = head.next; 
task = first.task; 
first.task = null; 
head = first; 
} 


return task; 


private boolean isEmpty(){return head.next == null;} 





图 5-38 ”共享 队列 确保 每 次 只 有 一 个 线程 可 以 访问 数据 结构 。 与 第 一 个 共享 队列 示例 不 同 ， 
如 果 队 列 为 空 ， 线 程 将 等 待 。 当 该 共享 队列 用 于 主 / 从 模式 算法 时 ， 将 需要 定义 
poison pill 任务 ， 用 于 终止 线程 操作 


一 般 来 说 ， 为 了 将 一 个 “如 果 条 件 为 假 就 立即 返回 ”的 方法 改变 为 一 个 “等 待 直到 条 件 
为 真 ”的 方法 ， 需 要 做 两 处 改变 : 首先 ， 将 下 面 形式 的 语句 


if (condition) {do_something;} 
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替换 为 一 个 循环 
while( !condition){wait();} do something; 


其 次 ， 检 查 共 享 队列 的 其 他 操作 ， 在 所 有 可 能 设立 条 件 的 操作 中 添加 对 notifyAll KA 
调用 。 这 是 wait 函数 基本 用 法 的 一 个 实例 。 附录 d 更 详细 地 描述 这 一 点 。 
这 样 ， 图 5-38 中 的 代码 主要 做 了 两 处 改动 。 首 先 ， 将 代码 


if ('isEmpty()){....} 


BAA 


while(isEmpty()) 
{try{wait()}catch(InterruptedException ignore){}}{....} 


HEK, HEE, put 函数 将 使 队列 不 为 空 ， 因 此 在 该 方法 中 添加 对 notifyAll 函数 的 调用 。 

这 种 实现 存在 性 能 问题 ， 即 存在 对 notifyAll 函数 的 额外 调用 。 虽 然 不 影响 正确 
性 ， 但 它 可 能 降低 性 能 。 一 种 优化 方法 是 最 小 化 put 肾 数 中 对 notifyAll 图 数 的 调用 数 
量 。 实 现 这 种 功能 的 一 种 方式 是 跟踪 等 待 线程 的 数目 ， 仅 当 存 在 等 待 线程 时 ， 才 进行 一 次 
notifyAll PRIA, FMEA w 标记 等 待 线程 数量 ， 如 下 所 示 : 


while( !condition){w++; wait(); w--} do something; 


if (w>0) notifyA110); 


在 这 个 特定 示例 中 ， 因 为 仅 有 一 个 等 待 线程 将 能 使 用 任务 ， 所 以 可 以 使 用 notify 函数 
替换 notifyAll AM (notify 六 数 仅 通知 一 个 等 竺 线程 )。 我 们 将 在 后 面 的 示例 ( 见 
图 5-40 ) 中 演示 这 种 细 化 的 代码 。 | 

用 于 非 干扰 操作 的 并 发 控制 协议 。 如 果 共 享 队 列 的 性 能 不 能 满足 要 求 ， 就 必须 定义 更 高 
效 的 并 发 控制 协议 。 像 5.8 节 所 讨论 的 那样 ， 需 要 定义 ADT 的 非 干扰 操作 集合 。 仔 细 分 析 
非 阻 塞 共享 队列 的 操作 ( 参见 图 5-37 和 图 5-38), BAH put Al take 操作 总 是 访问 不 同 变 
量 ， 因 此 这 两 个 操作 是 非 干扰 的 。put 操作 修改 了 last 引用 和 last 所 指 回 对 象 的 next 
Mh, take 操作 修改 了 head SIFU Ml head. next 所 指 问 对 象 的 task 成 员 的 值 。 在 这 种 
WOLF, put 修改 了 last MEA Node 对 象 的 next MA. M take BMS head MHF 
WAN task 成 员 。 这 些 操作 都 是 非 干扰 的 ， 因 此 可 以 为 put Al next 操作 分 别 定义 不 同 的 
锁 。 解 决 方案 如 图 5-39 所 示 。 

使 用 尾 套 锁 的 并 发 控制 协议 。 图 5-39 所 示 的 方法 无 法 方便 地 应 用 到 一 个 “ 当 队 列 为 空 
时 阻塞 访问 ”的 队列 中 。 首 先 ，wait、notify 和 notifyAll 函数 仅 能 够 在 队列 的 一 个 
同步 块 中 调用 。 其 次 ， 如 果 优 化 notify 调用 (如 前 所 述 )， 则 w 即 等 待 线 程 的 数目 ) 将 
WE put Al take 操作 访问 。 因 此 ， 需 要 定义 锁 (putLock) 来 保护 w， 并 在 队列 为 空 时 阻 
塞 执行 ake 操作 的 线程 。 代 码 如 图 5-40 所 示 。 注 意 ，get PA putLock.wait() (LEB 
putLock。 因 此 一 个 被 阻塞 线程 的 其 他 take 操作 (来自 使 用 takeLock 的 外 层 同 步 区 域 ) 


O 事实 上 , wait 方法 将 抛 出 InterruptedException 异常 ， 该 异常 必须 处 理 。 这 里 为 简单 起 见 ， 并 没有 


对 此 进行 处 理 。 然 而 ， 在 示例 代码 中 对 其 进行 了 适当 处 理 。 
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将 会 被 继续 阻塞 。 对 于 这 个 特定 问题 来 说 ， 这 是 可 行 的 。 这 个 策略 在 队列 不 为 空 时 允许 put 
和 take 操作 并 发 执行 。 


public class SharedQueue3 
{ 
class Node 
{ Object task; 
Node next; 


Node(Object task) 
{this.task = task; next = null;} 
} 


private Node head = new Node(null) ; 
private Node last = head; 


private Object putLock = new Object(); 
private Object takeLock = new Object(); 


public void put(Übject task) 
{ synchronized(putLock) 
{ assert task != null: "Cannot insert null task"; 
Node p = new Node(task); 
last.next = p; 
last = p; 
} 
} 


public Object take() 

{ Object task = null; 
synchronized (takeLock) 
{ if (!isEmpty()) 

{ Node first = head.next; 
task = first.task; 
first.task = null; 
head = first; 

} 

} 


return task; 





} 


图 5-39 实现 了 put 和 take 非 干扰 操作 的 共享 队列 ， 并 通过 定义 独立 的 锁 ， 使 它们 能 并 发 执行 


pubic class SharedQueue4 
{ 
class Node 
{ Object task; 
Node next; 


Node(Object task) 
{this.task = task; next = null;} 
} 


private Node head = new Node(null); 
private Node last = head; 

private int w; 

private Object putLock = new Object(); 
private Object takeLock = new Object(); 


public void put(Object task) 
{ synchronized (putLock) 
{ assert task != null: "Cannot insert null task"; 





图 5-40 ”使 用 多 个 锁 的 阻塞 队列 ， 当 队列 非 空 时 ，put Al take 操作 能 够 并 发 执行 


Node p = new Node(task) ; 
last.next = p; 
last = p; 
if (w>0){putLock.notify() ;} 
} 
} 
public Object take() 
{ Object task = null; 
synchronized(takeLock) 
{ //returns first task in queue, waits if queue is empty 
while (isEmpty()) 
{ try{synchronized(putLock){w++; putLock.wait();w--;) } 
catch(InterruptedException error)íassert false; }} 
{ Node first = head.next; 
task = first.task; 
first.task = null; 
head = first; 


} 


return task; 


private boolean isEmpty(){return head.next == null;} 





图 5-40 (2) 


另外 一 个 需要 注意 的 问题 是 ， 该 解决 方案 在 take 和 put 操作 中 均 使 用 了 同步 块 。 因 
此 ， 应 当 仔 细 检 查 同 步 块 以 防止 潜在 的 死 锁 。 然 而 ， 在 这 个 示例 中 ， 死 锁 并 不 存在 。 这 是 因 
为 put 操作 仅 使 用 一 个 锁 : putLock。 但 为 了 更 通用 ， 本 示例 定义 了 一 个 锁 偏 序 ， 并 确保 线 
程 始终 以 该 偏 序 所 定义 的 顺序 获取 锁 。 例 如 ， 假 设 定义 锁 偏 序 : takeLock«putLock, 并 
确保 线程 以 该 偏 序 所 定义 的 顺序 进入 同步 块 。 

如 前 所 述 ， 基 于 Java 的 实现 的 几 种 队列 包含 在 Java2 1.5 中 的 java.util.concurrent 
包 中 。 其 中 一 些 队列 的 实现 基于 这 里 讨论 的 最 简单 策略 ， 而 男 一 些 队列 的 实现 基于 更 复杂 的 策 
略 ， 这 些 复杂 策略 提供 了 额外 的 灵活 性 和 性 能 。 

分 布 式 共 享 队 列 。 集 中 式 共 享 队列 可 能 会 成 为 性 能 瓶颈 ， 定 义 并 实现 分 布 式 共 享 队列 可 
突破 这 个 瓶颈 。 作 为 一 个 示例 ， 我 们 将 在 底层 实现 中 开发 一 个 支持 派生 /聚合 程序 ( 使 用 线 
程 池 ) 的 简单 代码 包 和 一 个 分 布 式 任 务 队 列 。 该 包 是 FJTask 包 [Lea00b] (基于 [BJK'96] 中 
的 思想 ) 的 简化 版 本 。 其 基本 思想 是 创建 一 个 线程 池 ( 执行 程序 运行 时 动态 创建 的 任务 )， 每 
一 个 线程 都 关联 一 个 非 阻塞 队 列 ( 替代 单个 集中 式 任务 队列 )， 并 将 新 产生 的 任务 放 在 自己 
的 队列 中 。 当 线程 需要 执行 新 任务 时 ， 它 首先 尝试 从 自己 的 队列 中 获取 任务 。 如 果 队 列 为 空 ， 
该 线程 随机 选择 另外 一 个 线程 ， 并 尝试 从 那个 线程 的 队列 中 偷 取 任务 。 如 果 任 务 获取 失败 ， 
该 线程 将 继续 检测 其 他 队列 ， 直 到 找到 一 个 新 任务 为 止 (在 [BJK 96] 中 ， 这 称 为 随机 工作 
偷 取 )。 

当 线程 接收 到 poison-pill 任务 时 ， 它 将 终止 操作 运行 。 对 于 派生 / 聚合 程序 ， 需 要 牢记 
的 是 : 当 线程 以 LIFO (后 进 先 出 ) 顺序 从 自己 的 队列 中 移 除 任务 ， 并 以 FIFO ( 先进 先 出 ) 
顺序 从 其 他 队列 中 移 除 任 务 时 ， 已 经 证 明 该 方法 能 够 很 好 地 工作 。 因 此 ， 我 们 将 为 ADT 添 
加 一 个 新 操作 : 移 除 队列 的 最 后 一 个 元 素 。 线 程 可 调用 该 操作 从 自己 的 队列 中 移 除 任 务 。 如 
图 5-41 所 示 ， 该 实现 与 图 5-40 相似 ， 但 具有 一 个 额外 的 操作 : takeLast。 
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public class SharedQueue5 
{ 
class Node 
.{ Object task; 
Node next; 
Node prev; 


Node(Object task, Node prev) 
{this.task = task; next = null; this.prev = prev;} 


} 


private Node head = new Node(null, null); 
private Node last = head; 


public synchronized void put(Object task) 

{ assert task !- null: "Cannot insert null task"; 
Node p = new Node(task, last); 
last.next = p; 
last = p; 

} 


public synchronized Object take() 
{ //returns first task in queue or null if queue is empty 
Object task = null; 
if ('isEmptyO) 
( Node first = head.next; 
task - first.task; 
first.task = null; 
head = first; 
} 


return task; 


public synchronized Object takeLast() 

{ //returns last task in queue or null if queue is empty 
Object task = null; 
if (!isEmpty()) 
{ task = last.task; last = last.prev; last.next = null;} 
return task; 


} 


private boolean isEmpty(){return head.next == null;) 





图 5-41 包含 takeLast 操作 的 非 阻 塞 共 享 队列 


代码 包 的 其 余部 分 由 3 个 类 组 成 。 

e Task 类 。 一 个 抽象 类 。 应 用 可 扩展 它 并 重 写 run 方法 ， 以 定义 任务 功能 。 这 个 类 提 
Ht fork 和 join 等 方法 。 

e TaskRunner 类 。 该 类 扩展 Thread 类 ， 添 加 线程 池 中 线程 的 功能 。 该 类 的 每 个 实 
例 包含 一 个 共享 任务 队列 ， 任 务 偷 取 代码 就 位 于 这 个 类 中 。 

e TaskRunnerGroup 类 。 该 类 管理 TaskRunner 对 象 ， 并 定义 初始 化 和 关闭 线程 池 
的 方法 以 及 executeAndWait 方法 (启动 一 个 任务 的 运行 ， 并 等 待 该 任务 的 完成 )。 
executeAndWait 方法 用 于 启动 计算 (之 所 以 需要 它 ， 是 因为 Task 类 中 的 fork 
方法 仅 能 够 在 一 个 Task 对 象 内 被 调用 。 我 们 将 在 后 面 描述 这 种 限制 的 原因 )。 

现在 进一步 讨论 这 些 类 。 图 5-42 展示 了 Task 类 。 与 该 抽象 类 相关 的 状态 是 标记 为 

volatile 的 变量 aone， 以 保证 访问 它 的 任何 线程 都 将 获得 最 新 值 。 


138 BSF 





public abstract class Task implements Runnable 


{ 


//done indicates whether the task is finished 
private volatile boolean done; 

public final void setDone(){done = true;) 
public boolean isDone(){return done;} 


//returns the currently executing TaskRunner thread 
public static TaskRunner getTaskRunner() 
{ return (TaskRunner)Thread.currentThread(); } 


//push this task on the Local queue of current thread 
public void fork() 

{ getTaskRunner() .put (this); 

} 


//wait until this task is done 
public void join() 

{ getTaskRunner().taskJoin(this) ; 
} 


//execute the run method of this task 
public void invoke() 

( if (!isDone()){run(); setDone(); } 
} 





图 5-42 Task 抽象 基 类 


图 5-43. FK 5-44 和 图 5-45 展示 了 TaskRunner 类 。 如 在 方法 run 中 所 定义 的 那样 ， 
线程 将 不 断 循环 ， 直 到 遇 到 poison 任务 。 线 程 首 先 尝试 从 自己 的 局 部 队列 的 后 部 获得 任务 。 
如 果 该 局 部 队列 为 空 ， 则 尝试 从 其 他 线程 队列 的 前 面 偷 取 一 个 任务 。 


import java.util.*; 


class TaskRunner extends Thread 


{ 


private final TaskRunnerGroup g; //managing group 

private final Random chooseToStealFrom; //random number generator 
private final Task poison; //poison task 

protected volatile boolean active; //state of thread 

final int id; //indez of task in the TaskRunnerGroup 


private final SharedQueue5 q; //Nonblocking shared queue 


//operations relayed to queue 

public void put(Task t){q.put(t);} 

public Task take()íreturn (Task)q.take();) 

public Task takeLast(){return (Task)q.takeLast();) 


//constructor 
TaskRunner(TaskRunnerGroup g, int id, Task poison) 
{ this.g = g; 
this.id = id; 
this.poison = poison; 
chooseToStealFrom = new Random(System. identityHashCode(this) ) ; 
setDaemon(true) ; 
q = new SharedQueue5() ; 


) 


protected final TaskRunnerGroup getTaskRunnerGroup(){return g;) 
protected final int getID(){return id;) 
/* continued in next figure */ 





图 5-43 TaskRunner 类 ， 该 类 定义 了 线程 池 中 线程 的 行为 (ELR 5-44 和 图 5-45 ) 
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/* continued from previous figure */ 
//Attempis to steal a task from another thread. First chooses a 
//random victim, then continues with other threads until either 
//a task has been found or all have been checked. If a task 
//is found, it is invoked. The parameter waitingFor is a task 
//on which this thread is waiting for a join. If steal is not 
//called as part of a join, use waitingFor = null. 
void steal(final Task waitingFor) 
( Task task = null; 


TaskRunner[] runners = g.getRunners(); 
int victim = chooseToStealFrom.nextInt(runners.length); 
for (int i = 0; i != runners.length; ++i) 
{ TaskRunner tr = runners[victim]; 
if (waitingFor != null && waitingFor.isDone()){break;} 


else 
( if (tr != null && tr != this) 
task = (Task)tr.q.take(); 
if(task != null) {break;} 
yieldO; 
victim = (victim + 1)/runners.length; 


) 


} //have either found a task or have checked all other queues 


//if have a task, invoke it 
if(task !- null && ! task.isDone()) 
( task.invoke(); ) 

) 


/* continued in next figure 





图 5-44 TaskRunner 类 ， 该 类 定义 了 线程 池 中 线程 的 行为 ( 续 图 5-43 和 续 见 图 5-45 ) 


/* continued from previous figure */ 
//Main loop of thread. First attempts to find a task on local 
//queue and execute it. If not found, then tries to steal a task 
//from another thread. Performance may be improved by modifying 
//this method to back off using sleep or lowered priorities if the 
//thread repeatedly iterates without finding a task. The run 
//method, and thus the thread, terminates when it retrieves the 
//poison task from the task queue. 
public void run() 
{ Task task = null; 
try 
{ while (!poison.equals(task) ) 
{ task = (Task)q.takeLast(); 
if (task != null) { if (!task.isDone()){task.invoke() ;}} 
else { steal(null); } 
} 
} finally { active = false; } 
} 


//Looks for another task to run and continues when Task w is done. 
protected final void taskJoin(final Task w) 
{ while(!w.isDone()) 
{ Task task = (Task)q.takeLast() ; 
if (task != null) { if (!task.isDone()){ task. invoke() ;}} 
else { steal(w);) 





图 5-45 ”TaskRunner 类 ， 该 类 定义 了 线程 池 中 线程 的 行为 〈 续 图 5-43 和 图 5-44 ) 
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TaskRunnerGroup 类 的 代码 如 图 5-46 tas. TaskRunnerGroup 类 的 构造 方法 以 线 
程 数目 作为 参数 ， 初 始 化 线程 池 。 通 常情 况 下 ， 应 根据 计算 机 系统 中 处 理 顺 的 数目 合理 选择 
该 值 。executeAndwait 方法 启动 一 个 任务 并 把 它 放 到 线程 0 的 任务 队列 中 。 


class TaskRunnerGroup 

{ protected final TaskRunner[] threads; 
protected final int groupSize; 
protected final Task poison; 


public TaskRunnerGroup(int groupSize) 
{ this.groupSize = groupSize; 
threads = new TaskRunner[groupSize]; 
poison = new Task(){public void run()Ííassert false;)); 
poison.setDone(); 
for (int i = 0; i!» groupSize; i++) 
{threads[i] = new TaskRunner(this,i,poison);) 
for(int i20; i!= groupSize; i++){ threads[i].start(); ) 
} 


//start executing task t and wait for its completion. 
//The wrapper task is used in order to start t from within 
//a Task (thus allowing fork and join to be used) 
public void executeAndWait(final Task t) 
{ final TaskRunnerGroup thisGroup = this; 
Task wrapper = new Task() 
{ public void run() 
{ t.fork(); 
t.joinO; 
setDone(); 
synchronized(thisGroup) 
{ thisGroup.notifyA11();) //notify waiting thread 
} 
}; 
//add wrapped task to queue of thread[0] 
threads [0] . put (wrapper) ; 
//wait for notification that t has finished. 
synchronized(thisGroup) 
{ try{thisGroup.wait() ;} 
catch(InterruptedException e){return;} 
} 
} 


//cause all threads to terminate. The programmer is responsible 
//for ensuring that the computation is complete. 
public void cancel() 
{ for(int i=0; i!= groupSize; i++) 
{ threads[i].put(poison); } 


public TaskRunner[] getRunners(){return threads; } 





图 5-46 TaskRunnerGroup 类 ， 该 类 初始 化 并 把 它 管 理 线程 池 中 的 线程 


该 方法 的 作用 是 启动 计算 。 类 似 的 方法 是 必要 的 ， 这 是 因为 新 Task 只 能 在 男 一 个 Task 
内 部 调用 fork 和 join 方法 产生 ， 而 不 能 由 主线 程 或 其 他 非 TaskRunner 线程 产生 。 这 主要 
有 两 点 原因 : 首先 fork 和 join 方法 需要 与 执行 任务 的 TaskRunner 线程 交互 (PM, fork 
方法 含有 回 任 务 队 列 添加 任务 的 功能 ) ; 其 次 我 们 使 用 Thread. get CurrentThread 获得 合 
适 的 TaskRunner， 这 样 只 能 在 TaskRunner 线程 所 执行 的 代码 中 调用 fork 和 join 方法 。 

我 们 通常 希望 程序 能 够 创建 初始 任务 并 等 待 ， 直 到 任务 完成 才 继 续 执 行 。 为 了 实现 这 个 
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功能 ， 也 为 了 响应 在 task 中 调用 fork 的 限制 ， 我 们 定义 并 实现 了 一 个 “wrapper” 任 务 。 
它 的 功能 是 启动 初始 任务 并 等 待 它 的 完成 ， 最 后 通知 主线 程 (调用 executeAndWait MA 
fi). “wrapper” 任 务 被 添加 到 线程 0 的 任务 队列 中 ， 使 它 满足 被 执行 的 条 件 并 等 待 它 通 知 我 
f] (AAA notifyAll) 它 已 经 完成 了 。 

通过 在 斐 波 纳 契 数字 示例 中 使 用 fork, join 和 executeandWait， 我 们 将 更 加 清晰 
地 了 解 这 些 方法 。 

5. 示例 

计算 斐 波 纳 契 数 字 。 图 5-47 和 图 5-48 中 的 代码 使 用 了 分 布 式 队列 包 ”。 考 虑 如 下 公式 : 


public class Fib extends Task 
{ 
.volatile int number; // number holds value to compute initially, 
//after computation is replaced by answer 
Fib(int n) { number = n; } //task constructor, initialzzes number 


/fbehavior of task 
public void run() ( 
int n = number; 


// Handle base cases: 
if (n <= 1) ( // Do nothing: fib(0) = O; fib(1) = 1 } 
// Use sequential code for small problems: 
else if (n <= sequentialThreshold) { 
number = segFib(n); 
) 
// Ütheruise use recursive parallel decomposition: 
else 1 
// Construct subtasks: 
Fib fl = new Fib(n - 1); 
Fib f2 = new Fib(n - 2); 


// Run them in parallel: 
f1.fork() ;f£2.fork() ; 
// Await completion; 
f1.join();f2.joinO; 


// Combine results: 
number - fi.number * f2.number; 
// (We knou numbers are ready, so directly access them.) 
} 
} 


// Sequential version for arguments less than threshold 
static int seqFib(int n) { 

if (n <= 1) return n; 

else return seqFib(n-1) + seqFib(n-2); 


) 


//method to retrieve ansuer after checking to make sure 
//computation has finished, note that done and isDone are 
//inherited from the Task class. done is set by the executing 
//(TaskRunner) thread when the run method is finished. 
int getAnswer() { 

if (!isDone()) throw new Error("Not yet computed"); 

return number; 
) 


/* continued in next figure */ 





图 5-47 ”计算 斐 波 纳 契 数字 的 程序 ( 续 见 图 5-48 ) 


O 这 段 代码 实质 上 与 FJTask 包 演 示 的 计算 斐 波 纳 契 数字 的 类 相同 ， 但 为 了 使 用 前 面 描述 的 类 ， 做 了 一 些小 修改 。 


E ANNETTE E A 


/* continued from previous figure */ 
//Performance-tuning constant, sequential algorithm is used to 
//find Fibonacci numbers for values <= this threshold 
static int sequentialThreshold = 0; 


public static void main(String[]. args) { 
int procs; //number of threads 
int num; //Fibonacci number to compute 
try { 
//read parameters from command line 
procs = Integer.parseInt(args[0]); 
num = Integer.parseInt(args[1]); 
if (args.length > 2) 
sequentialThreshold = Integer.parseInt (args [2]) ; 


catch (Exception e) { 
System.out.println("Usage: java Fib <threads> <number> "+ 
"([<sequentialThreshold>]") ; 
return; 


//initialize thread pool 
TaskRunnerGroup g = new TaskRunnerGroup(procs); 


//create first task 
Fib f = new Fib(num); 


//execute it 
g.executeAndWait (f) ; 


//computation has finished, shutdown thread pool 
g.cancel(); 


//show result 

long result; 

{result = f.getAnswer();} 

System.out.println("Fib: Size: " + num + " Answer: " + result); 





图 5-48 ”计算 斐 波 纳 契 数字 的 程序 ( 续 图 5-47) 


Fib(0)=0 (5-7) 
Fib(1)=1 ( 5-8) 
Fib(n+2)=Fib(n)+Fib(n+1) ( 5-9) 


这 是 一 个 典型 的 分 治 算法 。 为 使 用 任务 包 ， 和 定义 了 Fib 类 ， 该 类 扩展 了 Task 类。 每 一 
个 Fib 任务 都 包含 一 个 成 员 number ， 该 成 员 初始 化 为 需要 进行 斐 波 纳 契 计算 的 数字 ， 随 后 
被 替换 为 计算 结果 。getAnswer 方法 返回 计算 结果 。 因 为 number 变量 将 被 多 个 线程 访问 ， 
所 以 它 声 明 为 volatile 类 型 。 

run 方法 定义 每 个 任务 的 行为 。 递 归并 行 分 解 的 过 程 如 下 : 首先 为 每 个 子 任务 创建 一 个 
新 的 Fib 对 象 ， 并 调用 每 个 子 任务 的 fork 方法 ， 以 启动 它们 的 计算 ; 然后 为 每 个 子 任务 调 
用 join 方法， 以 等 待 子 任务 的 完成 ; 最 后 计算 它们 结果 的 总 和 。 

main 方法 驱动 计算 。 它 首先 读 取 proc (需要 创建 的 线程 数目 )、num (进行 斐 波 纳 
契 计 算 的 数字 ) 和 可 选 的 sequentialThreshhold。 最 后 一 个 是 可 选 参数 ( 默认 为 0)， 
用 于 确定 问题 大 小 ， 决 定 到 底 使 用 串 行 算法 还 是 并 行 算法 来 求解 这 个 问题 。 获 得 这 些 参 数 
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E, main 方法 创建 一 个 包含 指定 数目 线程 的 TaskRunnerGroup， 然 后 创建 一 个 Fib 对 
象 ， 并 使 用 num 参数 初始 化 。 计 算 开 始 时 ， 首 先 将 Fib 对 象 传递 给 TaskRunnerGroup 的 
invokeAndWait 方法 。 当 它 返 回 时 ， 计 算 完 成 。 此 时 ， 线 程 池 被 TaskRunnerGroup 的 
cancel 方法 所 关闭 。 最 后 ， 从 Fib 对 象 中 获得 结果 并 进行 演示 。 

6. 相关 模式 

共享 队列 模式 是 共享 数据 模式 的 一 个 实例 。 它 常常 在 使 用 主 /从 模式 的 算法 中 表示 任务 
队列 。 它 也 能 够 支持 基于 线程 池 实 现 派 生 / 聚合 模式 。 | 

注意 ， 当 任务 队列 中 的 任务 被 映射 到 一 个 连续 的 整数 序列 时 ， 用 一 个 单调 的 共享 计数 器 
替换 队列 ， 可 能 会 更 加 高 效 。 


5.10 分布 式 数组 模式 


1. 问题 

常常 需要 在 多 个 UE 间 划 分 数组 。 如 何 对 数组 进行 划分 ， 才 能 使 最 终 程 序 既 可 读 又 有 高 
效 呢 ? 

2. 背景 


在 科学 计算 问题 中 ， 大 型 数组 是 基础 数据 结构 。 微 分 方程 是 许多 计算 问题 的 核心 ， 而 求 
解 这 些 方程 需要 使 用 大 型 数组 。 当 连续 域 被 离散 值 集合 所 替代 时 ， 很 自然 地 就 需要 使 用 大 型 
数组 。 在 信号 处 理 、 静 态 分 析 、 全 局 优化 和 大 量 其 他 问题 中 也 需要 使 用 大 型 数组 。 因 此 ， 高 
效 地 处 理 大 型 数组 是 一 个 重要 的 问题 。 

如 果 并 行 计 算 机 具有 足够 大 的 地 址 空间 ， 能 够 容纳 整个 数组 ， 并 提供 从 任何 PE 到 任意 
数组 元 素 的 等 时 访问 ， 那 么 数组 的 处 理 方式 是 没有 必要 关心 的 。 但 是 处 理 器 性 能 要 比 内 存 子 
系统 快 得 多 ， 连 接 节点 的 网 络 比 内 存 总 线 慢 得 多 。 因 此 ， 最 终 系统 的 访问 时 间 常 常 差 别 很 大 ， 
具体 依赖 于 哪 一 个 PE 访问 哪 一 个 数组 元 素 。 

高 效 处 理 大 数组 所 面临 的 挑战 是 如 何 组 织 数 组 ， 使 得 计算 过 程 中 ， 每 个 UE 所 需要 的 元 
素 在 恰当 的 时 间 恰 好 位 于 该 UE 附近 。 换 名 话说 ， 数 组 必须 分 布 在 计算 机 中 ， 使 得 数组 分 布 
匹配 计算 流 。 

这 种 模式 对 于 任何 使 用 大 型 数组 的 并 行 算法 都 非常 重要 。 特 别 是 算法 结构 使 用 几何 分 解 
模式 、 程 序 结 构 使 用 SPMD 模式 时 ， 尤 其 重要 。 尽 管 这 种 模式 在 某 种 程度 上 与 分 布 式 内 存 环 
境 (在 分 布 式 内 存 环境 中 ， 全 局 数据 结构 必须 分 配 在 所 有 PE E) 特别 相关 ， 但 是 如 果 在 一 
个 NUMA 平台 上 (在 NUMA 平台 中 ， 所 有 的 PE 可 访问 全 部 内 存 位 置 ， 但 访问 时 间 不 同 ) 实 
现 单个 地 址 空间 ， 是 可 以 应 用 这 种 模式 的 某 些 思想 的 。 对 于 这 样 的 平台 ， 不 需要 显 式 地 分 解 
和 分 配 数组 ， 但 是 管理 内 存 层 次 仍然 很 重要 ， 其 目标 是 使 数组 元 素 尽 可 能 接近 于 需要 它们 的 
PE“。 基 于 这 个 原因 ， 在 NUMA 机 器 中 ，MPI 程序 有 时 比 使 用 NUMA 机 器 的 一 种 本 地 多 线 
fé API 所 实现 的 相似 算法 要 好 得 多 。 进 一 步 讲 ， 这 种 模式 的 思想 可 应 用 于 多 线程 API， 以 保 
证 内 存 页 尽 可 能 接近 即将 处 理 它 的 处 理 器 。 例 如 ， 当 目标 系统 使 用 “first touch” 页 管理 策略 
时 ， 如 果 每 一 个 数组 元 素 被 即将 处 理 它 的 PE 初始 化 ， 将 显著 提高 系统 效率 。 但 是 ， 如 果 在 计 


© NUMA 计算 机 通常 由 一 些 将 处 理 器 和 内 存 系统 子 集 拥 绑 在 一 起 的 硬件 模块 构成 。 在 一 个 硬件 模块 内 部 ， 处 理 器 与 
自己 的 内 存 子 系统 离 得 非常 近 ， 处 理 器 访问 这 个 内 存 的 时 间 要 比 访问 一 个 远程 内 存 所 需要 的 时 间 少 很 多 。 
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算 的 过 程 中 需要 重新 映射 数组 ， 则 这 种 方法 将 失效 。 
3. 面临 的 问题 
e 负载 均衡 。 直 到 所 有 的 UE 都 完成 其 工作 ， 并 行 计算 才能 完成 。 所 以 在 UE 间 分 配 计 
算 负 载 时 ， 必 须 尽 量 保证 每 一 个 UE 的 计算 时 间 尽 可 能 接近 。 
e 高 效 内 存 管理 。 现 代 计 算 机 的 微 处 理 器 性 能 比 内 存 要 快 得 多 。 为 此 ， 高 性 能 计算 机 系 
统 通 常 具有 复杂 的 内 存 层次 。 只 有 充分 利用 这 种 内 存 层 次 ， 才 有 可 能 实现 高 性 能 。 实 
现 这 个 目标 的 方法 是 确保 处 理 器 和 它 所 要 处 理 的 数据 尽 可 能 接近 。( 即 缓存 中 数据 的 
高 重用 性 ， 并 且 处 理 硕 保持 对 所 需要 页 的 可 访问 性 )。 
e 抽象 清晰 性 。 如 果 数 组 在 UE 间 的 划分 方式 和 到 本 地 数组 的 映射 方式 是 清晰 的 ， 则 包 
含 分 布 式 数组 的 程序 更 容易 编写 、 调 试 和 维护 。 
4. 解决 方案 
概述 。 以 较 高 的 层次 描述 这 个 解决 方案 是 比较 简单 的 ,但 具体 细节 比较 复杂 。 其 基本 思 
想 是 : 将 全 局 数组 划分 为 多 个 子 块 ， 并 将 这 些 子 块 映射 到 UE 上 。 这 种 映射 方式 应 尽量 做 到 
负载 均衡 ， 即 当 计算 展开 时 ， 尽 量 保证 每 一 个 UE 具有 相等 的 工作 量 。 除 非 所 有 UE 共享 单个 
地 址 空间 ， 和 否则 每 一 个 UE 所 要 处 理 的 数据 都 要 存储 在 该 UE 的 局 部 数组 中 。 代码 将 使 用 局 部 
数组 的 索引 访问 分 布 式 数组 的 元 素 。 但 是 ， 问 题 和 解决 方案 的 算法 描述 是 基于 全 局 数组 索引 
的 。 在 这 种 情况 下 ， 必 须 清楚 全 局 数组 和 本 地 数组 间 的 映射 与 转换 机 制 : 即 如 何 使 用 全 局 索 
引 来 访问 元 素 ; 如 何 使 用 局 部 索引 和 UE 标识 符 的 组 合 来 访问 元 素 。 清 晰 的 映射 和 转换 机 制 ， 
将 是 高 效 使 用 这 种 模式 所 面临 的 一 个 挑战 。 

数组 分 布 。 数 组 分 布 方法 已 经 成 为 标准 。 

e 一 维 (1D) 块 。 仅 在 一 个 维度 上 分 解数 组 ， 并 且 为 每 个 UE 分配 一 个 子 块 。 例 如 ， 对 于 一 
个 2D 和 矩阵 ， 对 应 于 将 部 分 连续 行 或 列 分 配给 
每 个 UE。 这 种 分 配方 法 有 时 称 为 列 块 或 行 块 
分 配 法 ( 具体 依赖 于 在 哪个 维度 上 进行 分 
Ac). 此 时 ，UE 在 概念 上 组 织 为 一 个 ID 数组 。 

e 二 维 (2D) 块 。 和 1D 块 一 样 ， 为 每 个 UE 
上 分 配 一 个 子 块 。 但 这 个 数据 子 块 是 初始 
全 局 数组 的 一 个 矩形 子 块 。 这 种 映射 将 UE 
集合 看 作 一 个 2D 数组 。 

e 块 循环 。 数 组 被 分 解 为 多 个 块 (使 用 ID 或 
2D 划分 ), 并 且 块 的 数目 远大 于 UE 数目。 
然后 像 分 发 纸牌 一 样 将 这 些 块 循环 分 配给 
UE。 此 时 ,UE 可 以 看 作 ID 数组 或 2D 数组 。 

下 面 将 更 详细 地 介绍 这 些 分 配方 法 。 为 便于 演 

， 如 图 5-49 所 示 ”, 我 们 使 用 一 个 秩 为 8 的 方 阵 4。 图 5-49 初始 方 阵 4 


O 在 本 模式 的 这 个 图 和 其 他 图 中 ,将 使 用 如 下 符号 约定 : 1) 一 个 矩阵 元 素 表示 为 一 个 具有 下 标的 小 写字 母 ， 
其 中 下 标 表 示 索 引 。 例 如 ，am, : 表示 和 矩阵 4 第 1 行 、 第 2 列 的 元 素 。2 ) 一 个 子 和 矩阵 将 表示 为 一 个 具有 下 标 
的 大 写字 母 ， 其 中 下 标 表示 索引 。 例 如 ，4o 表示 一 个 包含 4 的 左上 角 的 子 和 矩阵 。3 ) 当 讨 论 将 4 的 某 部 分 
分 配给 UE 时 ， 使 用 UE 加 位 于 圆 括号 中 的 索引 来 表示 不 同 UE; 例如 ， 如 果 我 们 将 所 有 UE 看 作 一 个 ID 数 
H, M UE(0) 表示 概念 上 最 左边 的 UE ; 如 果 我 们 将 所 有 UE 看 作 一 个 2D 数组 ， 则 UEO, 0 表示 概念 上 
位 于 左上 角 的 UE。 假设 所 有 的 索引 基于 0 C 即 最 小 索引 是 0 )。 
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1D 块 。 图 5-50 演示 了 A 的 列 块 分 配 : 将 矩阵 4 分 配 到 由 4 个 UE 组 成 的 线性 数组 上 。 该 
矩阵 仅 沿 着 列 索引 分 解 ;矩阵 的 秩 除 以 UE 总 数 得 到 每 个 块 的 列 数 MB ( 这 里 是 2 )。 把 矩阵 元 素 
(i, 记分 配给 UE (AMB) “©. 


上 映射。 考虑 一 般 情况 ,假设 有 一 | 
ee 列 数目 不 被 UE RA P S as | aus fais | ais 四 加 四 区 
除 。 在 这 种 情况 下 ，MB 是 映射 到 UE 上 
的 最 大 列 数目 ， 除 了 UE(P-1) 之 外 ， 所 有 ao ac 
的 UE 包含 MB 块 。 于 Æ, MB- MIP], 

列 / 的 元 素 被 映射 到 UE(L/MP) 上 (这 | oo | au 


归 约 了 前 面 示例 中 给 出 的 公式 ， 因 为 如 果 ar aay "EN AP | 
已 能 够 整除 M, [M/P|=M/P, JFHL//MBF 
j/MB)。 类 似 的 公式 适用 于 行 分 配方 法 。 mm 四 四 mm [n = 

局 部 索引 映射 。 将 列 映 射 到 UE 后 ， mm 四 四 mm 
还 需要 实现 全 局 索引 到 局 部 索引 的 映射 。 S PAG o 
EASRA R, RAPE IU RE Ci) PRAT ZI 图 5-50 Mi A 8| 4 4 UE ff] 1D 4) ie 
局 部 元 素 为 (ij mod MB)。 给 定局 部 索 UE(0,0) UE(0.1) 
5| (x,y) Al VECOw)， 就 可 以 获得 全 局 索引 
(x%,wMB+y)。 同 理 ， 类 似 的 公式 也 适用 于 
行 分 配方 法 。 

2D 块 。 图 5-51 展示 了 和 矩阵 4 到 UE 
的 2D 块 (大 小 为 2x2) 分 配 。4 沿 两 维 
分 解 ， 对 于 每 个 子 块 来 说 ， 列 数 等 于 矩 
阵 的 秩 除 以 UE SARE, FT T ÓB 
阵 的 秩 除 以 UE 矩阵 的 行 数 。 把 矩阵 元 素 
(ij) 22A UE ( i/2,j/2 )。 

UE 映射。 更 常见 的 是 ， 将 NxM 和 矩 
[ms s PrxPc 的 UE 矩阵。 一 个 子 块 
的 最 大 尺寸 为 NBxMB， 其 中 NB=[N/Prl 
MB-[M/Pc. & Ja E 6X (L) 映射 到 UE(1,0) UE(,1) 

UE(| i/NB\,| j/MB]) E. 图 5-51 和 矩阵 4 到 4 个 UE 的 2D 分 配 

局 部 索引 映射 。 全 局 索引 GJ) 映射 到 局 部 索引 (i mod NB, j mod MB)。 给 定 UE(z,w) 上 的 
局 部 索引 (x,y)， 对 应 的 全 局 索引 为 (zNB+x,wMB+y)。 

块 循环 。 块 循环 的 主要 思想 是 创建 大 大 超出 UE 数量 的 块 ， 并 以 一 种 循环 方式 进行 分 配 












O 我们 将 使 用 符号 “、 ”表示 整数 除法 ,而 “/” 表 示 普 通 除 法 。 这 样 a\b=|a/b|, 55h, [x] 表示 小 于 等 于 x 
的 最 大 整数 ，|x| 表示 大 于 等 于 x 的 最 小 整数 。 例 如 4/3 上 FL，|4/2 上 2。 

O 注意 ， 当 UE 数量 不 能 整除 列 数 时 ， 这 并 不 是 在 UE 间 分 配 列 的 唯一 可 行 方式 。 还 有 一 种 更 复杂 的 分 配方 
法 ， 在 某 些 情况 下 可 实现 更 好 的 负载 均衡 。 该 方法 首先 将 每 个 UE 分 配 的 最 小 列 数 定义 为 | MVP|， 然 后 将 
前 (M mod P) ^- UE 分 配 的 列 数 加 1。 例 如 ， 对 于 M-10 和 P=4 的 情况 ，UE(0) 和 UE) 将 分 配 3 列 数据 ， 
UE(2) 和 UE(3) 将 分 配 两 列 数 据 。 
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( 与 分 发 纸牌 类 似 )。 图 5-52 2818 TEE A 到 长 度 为 4 的 UE 数组 的 1D 块 循环 分 配方 式 ， 并 
演示 了 和 抢 阵 列 是 如 何以 循环 模式 分 配给 UE 的 。 把 矩阵 元 素 (i,j) 分 配给 UEG mod 4)( 其 中 4 
是 UE 的 数目 )。 





UE(0) UE(1) UE(2) UE(3) 
图 5-52 Se A 到 4 个 UE 的 1D 块 循环 分 配 


图 5-53 和 图 5-54 Zi iH T ABE A 到 2x2 UE 数组 的 2D 块 循环 分 配方 式 。 图 5-53 演示 
了 和 矩阵 4 被 分 解 为 多 个 2x2 子 矩阵 的 分 解 方式 (我 们 可 以 选择 一 种 不 同 的 分 解 方 式 ， 例 如 
1 x1T 子 和 矩阵， 但 是 2x2 子 矩阵 的 分 配方 式 同时 具有 块 分 配 和 循环 分 配 两 种 特征 )。 图 5-54 给 
出 了 这 些 子 和 矩阵 到 UE 的 分 配方 式 。 把 矩阵 元 素 (4) 分 配给 UE(i mod 2, j mod 2). 


Ay 0 Ay l Ay, Ay 3 
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Ao A,, 






图 5-53 Hal A 到 4 个 UE HJ 2D 块 循环 分 配 ， 部 分 1: 分 解 矩 阵 A 
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UE Bk St. — REL E.MY SI Pex Pehy UE EME, FSR f KH 


UE(0,0) UE(0,1) 


NBxMB。 把 全 局 矩阵 元 素 (ij) 映射 到 UE(z,w)， 其 
tA z =| i/NB| mod Pr, w=|j/MB| mod Pc. 

局 部 索引 映射 。 因 为 把 多 个 块 映射 到 相同 的 UE 
上 ， 所 以 可 以 从 局 部 索引 块 或 元 素 角度 实现 局 部 索 
引 映 射 。 

从 块 的 角度 来 看 ， 映 射 到 UE 上 的 每 个 元 素 可 
通过 块 索引 (Lm) 和 块 内 部 索引 (x,y) 得 到 局 部 索引 。 
假设 全 局 矩阵 元 素 (17) 映射 到 某 个 UE 的 局 部 (Lm) 
块 的 œ, y) 位 置 处 ， 其 中 (xD)=(LYZPRNBL7MPcVB)， 
(x,y)=(i mod NB, j mod MB)», KI 5-55 演示 了 映射 到 
UE(0, 0) 的 元 素 的 局 部 索引 情况 。 





UE(1,0) UE(1,1) 


K| 5-54 ERE A 到 4 个 UE 的 2D 块 循环 
分 配 ， 部 分 2: 将 子 和 矩阵 分 配给 UE 


例如 ， 全 局 矩阵 元 素 asa, M Pr=Pc=NB=MB=2 时 ， 把 该 BIC WRT FI VEO, QE, 有 
4 个 2x2 块 映射 到 该 UE 上 。 从 图 5-55 中 可 以 看 到 ， 这 个 元 素 位 于 左下 角 的 块 上 ， 即 块 LA o 
上 。 实 际 上 ， 根 据 公 式 我 们 可 以 得 到 (Lo)=(|S/(2*2)|，| LU(2*2))=(1，0)。 块 内 局 部 索引 为 (x, 


y)=(5 mod 2, 1 mod 2)=(1, 1). 


从 元 素 角 度 看 〈 每 个 UE 的 所 有 块 组 成 一 个 连续 矩阵 )， 全 局 索引 G 映射 到 的 局 部 索引 
为 (INB+x,mMB+y)， 其 中 , 1 和 m 的 意义 与 前 面相 同 。 图 5-56 展示 了 映射 到 UE(0，0) 中 的 


元 素 。 


0,1 


T 
oo Ao) aos di,s 
(loo) | (ov (lo) | (s) 
aio âi dia dis 


(9 | (9 | God} (9 


Ayo Qs) a, 4 ays 


(loo) (/ 0,1 ) (log) (/ 0,1 ) 


as ds ds4 ass 
Gio | (0 | (h9| Gad 
LA, o i 




















LA,, 


配给 UE(0, 0) 的 矩阵 4 CR. LAm SER 
引 为 (Lm) 的 子 块 ， 每 个 元 素 的 初始 全 局 
RIH aiy, W LAm 内 索引 为 As 


C00 Qo) Ao 4 do s 
(loo) | Co) | (2) | Gos) 


aio a, a, 4 ais 


God | God | 62] Ga) 


Us0 a, a a, s 
(b) | a) | (ha) | (23 
aso as, Gs 4 ds s 
(59 | (4) | Ga | Ga) 


图 5-55 年 阵 4 到 4 个 UE 的 2D 块 循环 分 配 : 分 ”图 5-56 I A 到 4 个 UE 的 2D 块 循环 分 配 ， 从 





分 配给 UE(0, 0) 的 矩阵 A 元 素 的 角度 出 
发 。 每 个 元 素 通过 初始 全 局 索引 wy ME 
的 局 部 索引 Lo, 来 标识 。 局 部 索引 为 该 元 
素 在 存储 分 配给 该 UE 的 所 有 块 的 连续 矩 
阵 上 的 索引 


再 次 以 全 局 矩阵 元 素 as, ,为 例 ， 将 该 数据 看 作 单 个 矩阵 时 ， 该 元 素 的 局 部 索引 为 
(1 x 2+1,0 x 2+1)=(3,1). UE(z,w) PR (1, m) 内 的 局 部 索引 (x,y) 对 应 的 全 局 索引 为 (ZPh+z ) 


NB-*x,(mPc-w) MB +y), 
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分 配 法 的 选择 。 根 据 UE 上 计算 负载 随 计算 进行 的 变化 ， 选 择 合适 的 分 配 算法 。 例 如 ， 
在 单 频道 信号 处 理 问 题 中 ， 对 数组 的 每 列 执行 相同 操作 ， 计 算 量 不 会 随 着 计算 的 进行 而 发 生 
变化 。 因 此 ， 采 用 列 块 分 解 方法 可 以 编写 逻辑 清晰 的 代码 并 能 实现 较 好 的 负载 均衡 。 如 果 处 
理 每 一 列 的 工作 量 不 同 ， 例 如 ， 列 索引 越 大 ， 所 需 工 作 量 就 越 多 ， 则 列 块 分 解 将 导致 较 差 的 
负载 均衡 。 这 是 因为 处 理 索引 较 小 列 的 UE 将 先 于 处 理 索 引 较 大 列 的 UE 完成 工作 。 在 这 个 示 
例 中 ， 周 期 分 配 法 会 实现 较 好 的 负载 平衡 ， 因 为 每 个 UE 既 会 处 理 索引 较 小 的 列 ， 也 会 处 理 
索引 较 大 的 列 。 | 

同样 的 方法 也 适用 于 较 高 维 数组 。ScaLAPACK[Sca、BCC'97] ( 运行 在 分 布 式 内 存 
计算 机 上 的 稠密 线性 代数 软件 包 ) 采用 2D 块 周期 分 配 法 。 我 们 以 高 斯 消 元 (一 个 常用 的 
ScaLAPACK 例 程 ) 算法 讨论 选择 这 种 分 配方 法 的 原因 。 该 算法 也 称 为 LU 分 解 : 将 稠密 方 阵 
转换 为 一 对 三 角 和 矩阵 ， 即 上 三 角 和 矩阵 局 和 下 三 角 和 矩阵 工 。 该 算法 从 全 局 矩阵 的 左上 角 开 始 ， 
沿 对 角 线 依次 处 理 和 矩阵 元 素 ( 消除 对 角 线 下 面 的 元 素 ， 根 据 需 要 将 剩余 的 块 转换 到 右边 )。 当 
计算 沿 对 角 线 进行 时 ， 块 分 配 法 将 导致 某 些 UE 空闲 。 但 当 使 用 2D 块 周期 分 配 法 ( 如 图 5-54 
所 示 ) 时 ， 每 个 UE 同时 包含 算法 中 早期 和 后 期 使 用 的 元 素 ， 因 此 能 够 实现 良好 的 负载 均衡 。 

映射 索引 。 前 面 讨 论 的 示例 演示 了 初始 (全 局 ) 数组 的 每 个 元 素 到 UE 的 映射 方式 ， 以 
及 全 局 数组 中 的 每 个 元 素 在 分 配 后 ， 如 何 被 全 局 索引 集 、UE 标识 符 和 局 部 信息 的 组 合 所 标识 。 
初始 问题 通常 通过 全 局 索引 进行 描述 ,但 是 每 个 UE 内 的 计算 必须 通过 局 部 索引 进行 。 为 了 
高 效应 用 这 种 模式 ， 需 要 全 局 索引 以 及 UE 和 局 部 索引 的 组 合 信息 这 两 者 间 的 关系 尽 可 能 地 
透明 。 将 索引 映射 隐藏 在 代码 中 是 非常 容易 的 ， 但 会 使 程序 难以 调试 。 一 种 更 好 的 方法 是 使 
用 宏和 内 联 晴 数 实现 索引 映射 ， 程 序 员 只 需 了 解 宏 和 内 联 函 数 ， 就 可 以 掌握 索引 的 映射 方式 。 
同时 ， 这 种 方式 有 利于 提高 抽象 的 清晰 性 。 后 面 的 示例 演示 了 这 种 策略 。 

计算 本 地 化 。 提 高 计算 性 能 的 一 个 主要 原则 是 尽量 重用 与 UE 接近 的 数据 。 也 就 是 说 ， 
更 新 局 部 数据 的 循环 应 当 尽 可 能 多 地 利用 每 一 次 存储 器 访问 。 这 个 原则 对 数组 分 配方 法 的 选 
择 产 生 了 一 定 的 影响 。 

例如 ， 在 线性 代数 计算 中 ， 可 以 将 一 个 矩阵 计算 组 织 为 多 个 子 矩 阵 的 较 小 计算 。 如 果 这 
些 子 矩阵 能 够 缓存 ， 就 能 获得 显著 的 性 能 提升 。 相 似 的 处 理 方式 也 应 用 于 其 他 级 别 的 内 存 层 
X, ER (TLB ) 的 命中 率 和 页 故障 率 等 。 这 个 主题 的 详细 讨论 超出 了 本 
书 的 范围 。 请 参阅 [PH98]。 | 

5. 示例 

以 列 块 形式 转 置 矩 阵 。 本 节 通 过 和 拖 阵 转 置 算 法 说 明 将 和 矩阵 计算 组 织 为 多 个 子 和 抢 阵 的 较 小 
计算 的 方法 ， 本 示例 采用 方 阵 ， 并 按照 列 块 方式 进行 分 配 。 为 简化 问题 ， 假 设 UE 数目 能 够 
整除 列 数目 ， 因 此 所 有 列 块 的 大 小 相同 。 如 图 5-57 所 示 ， 将 矩 从 阵 逻 辑 上 分 解 为 多 个 方形 子 
AREE. Kd 5-57 中 每 一 个 方形 子 和 矩阵 都 用 标号 进行 标识 ,标号 说 明了 转 置 后 的 子 块 与 初始 子 块 
之 间 的 关系 ( 例如 ， 标 号 为 (401) 在 的 子 块 是 初始 矩阵 中 标号 为 Aa 子 块 的 转 置 )。 整 个 算 
法 分 为 多 个 阶段 ， 阶 段 数 依赖 于 UE 中 子 和 矩阵 的 数目 (也 依赖 于 UE 数目 )。 在 第 一 阶段 ， 对 
AR [Vg A 对 角 线 上 的 子 和 矩阵 进行 转 置 ( 每 个 UE 转 置 一 个 子 和 矩阵 )，UE 间 不 需要 通信 。 接 下 来 
的 阶段 中 ， 每 个 UE 从 对 角 线 下 方 的 第 一 个 子 矩 阵 开 始 ， 依 次 进行 转 置 操作 。 在 这 些 阶段 中 ， 
UE 必须 首先 转 置 其 中 一 个 子 矩 阵 ， 然 后 将 它 发 送 给 另外 一 个 UE， 并 接收 一 个 子 和 矩阵 。 例 如 ， 
UE(1) 首先 对 子 和 矩阵 (2,1)4 进行 转 置 ; 然后 将 其 发 送 给 UE(2)， 并 从 UE(0) 接收 (1，0)47。 
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图 5-58 和 图 5-59 给 出 了 该 算法 的 代码 。 假 设 这 些 块 是 连续 分 配 的 ， 其 中 为 每 个 UE 分 配 一 个 
列 块 。 因 为 这 部 分 代码 将 作为 一 个 较 大 程序 的 一 部 分 ， 所 以 假设 在 调用 这 部 分 代码 之 前 ， 数 
组 已 经 分 配 。 





UE(0) UE(1) UE(2) UE(3) UE(0) UE(1) UE(2) UE(3) 
图 5-57 ”和 矩阵 4 在 4 个 UE 间 的 分 配 及 转 置 


| € fe je RR be le je fe e e je ke je je je e je je oe je je oe oe oe je je AO AA oje oe oje e je je sje oe je be te be je e obe oe je fe oj oe oe oj oe je oe KIA AAI 
NAME: trans isend ircv 


PURPOSE: This function uses MPI Isend and Irecv to transpose 
a column-block distributed matriz. 


Kj je je e ae ok e e oj e a ole e e o je jc a e e p e je o e oe je o je a e kc oj GOR f RC OR ORO ORO e oj aR e x e e e o c eoo / 


#include "mpi.h" 
#include <stdio.h> 


ke ke b e e je je oj oe oe je oe be pe je oj je je je je oe je obe je e o AR AAS je je of je oj oe oe oje oj oe oj oj je je je ae je be e be je e oe AAR je e e oe GH IH 
** This function transposes a local block of a matriz. We don’t 
** display the teri of this function as it is not relevant to the 


** point of this example. 


3c je je je jc b f fe je e e e e o e b be je oj obe obe ke le obe je e e e oj kc e je jc oe he oe je oe oe oe ofc oe ojc jc oe je oe je e je oe oe oe oe o oe je oe oe oe e oe eee / 


void transpose( 
double* A, int Acols, /* input matriz */ 
double* B, int Bcols, /* transposed mat */ 
int sub rows, int sub cols); /* size of slice to transpose */ 


fk e ke je e be je abe e e oe je oj ke e e e o c e c e e ok ej I 3c e e c e e HAMAR e eoe oo oe ee eoe ee ee ooo 
** Define macros to compute process source and destinations and 

** Local indices 

2j aj aj c Oe e e e RO GO je ok o o e oe oe oc oj e UR UR OIG oi c oc e oce e oe eoe ojo ROE i / 
#define TO(ID, PHASE, NPROC) ((ID + PHASE ) 4 NPROC) 

define FROM(ID, PHASE, NPROC) ((ID + NPROC - PHASE) % NPROC) 
#define BLOCK(BUFF, ID) (BUFF + (ID * block size)) 

/* continued in next figure */ 





图 5-58 ABER EIUS SEI 5-59 ) 


程序 将 每 个 局 部 列 块 (一 个 用 于 存放 4， 男 一 个 用 于 存放 转 置 后 的 结果 ) 表示 为 ID 数 
组 。 每 个 数组 由 Num_procs +} FER mM, BOF HRM AK) block size=Block 
order*Block ordqer， 其 中 Block order 是 每 个 UE 分 配 的 列 数 。 因 此 可 以 使 用 
BLOCK 宏 来 找到 索引 为 ID 的 块 : 


#define BLOCK(BUFF, ID) (BUFF + (ID * block_size)) 
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/* continued from previous figure */ 


void trans_isnd_ircv(double *buff, double *trans, int Block_order, 
double *work, int my_ID, int num_procs) 
{ 
int iphase; 
int block _size; 
int send_to, recv_from; 
double *bblock; /* pointer to current location in buff */ 
double *tblock; /* pointer to current location in trans */ 
MPI_Status status; 
MPI_Request send_req, recv_req; 


block_size = Block_order * Block_order; 


J ROR AOR aj e je je je je je oe be be AA be b e oe oe oe AOR oe oe he AAR AAA A IAA je je je AA AAA oe oe AAA AAR AA SOR AAR AA AA AO 
** Do the transpose in num procs phases. 


In the first phase, do the diagonal block. Then move out 
** from the diagonal copying the local matriz into a communication 
** buffer (while doing the local transpose) and send to process 
** (diag*phase)^num procs. 
aj je e je oje je oj je je je oe je je oje he oe oc je je ope je be je je je je je je o e je je oje je oj je obe oe oe oe je oj je fe oe oj je obe e oc oj oje e je oj oc oj je je oe oe oe jeje e eoe / 
bblock = BLOCK(buff, my ID); 
tblock = BLOCK(trans, my ID); 


transpose(bblock, Block order, tblock, Block order, 
Block order, Block order); 


for (iphase=1; iphase<num_procs; iphase++){ 
recv from = FROM(my_ID, iphase, num, procs); 
tblock = BLOCK(trans, recv from); 
MPI Irecv (tblock, block size, MPI DOUBLE, recv from, 
iphase, MPI COMM WORLD, &recv. req); 


send to = TO(my ID, iphase, num, procs); 
bblock = BLOCK(buff, send. to); 
transpose(bblock, Block order, work, Block order, 
Block order, Block order); 
MPI Isend (work, block size, MPI DOUBLE, send to, 
iphase, MPI. COMM WORLD, &send. req); 


MPI Wait(&recv req, &status); 
MPI Wait(&send req, Estatus); 





图 5-59 ”和 矩阵 转 置 代码 ( 续 图 5-58 ) 


BUFF 是 ID 数组 的 起 始 地 址 (buff 用 于 存放 初始 数组 ，trans 用 于 存放 转 置 后 的 数 
组 ), ID 是 块 的 第 二 个 索引 。 例 如 ， 可 以 利用 下 面 的 代码 寻找 两 个 数组 中 位 于 对 角 线 上 的 块 : 


bblock 
tblock 


BLOCK(buff, my ID); 
BLOCK(trans, my ID); 


在 算法 的 后 续 阶 段 ， 必 须 确定 两 件 事 : 应 当 转 置 和 发 送 的 块 的 索引 ;应 当 接 收 的 块 的 索引 。 
我 们 使 用 宏 TO 和 FROM 完成 该 任务 : 


#define TO(ID, PHASE, NPROC) ((ID + PHASE ) % NPROC) 
#define FROM(ID, PHASE, NPROC) ((ID + NPROC - PHASE) % NPROC) 


TO 索引 表示 沿 对 角 线 块 向 下 的 处 理 进 度 : 从 对 角 线 块 开 始 ,依次 向 下 处 理 ， 当 到 达 和 矩阵 
底部 时 ， 折 回 到 符 阵 顶部 继续 处 理 。 在 算法 的 每 一 个 阶段 ， 我 们 计算 哪 一 个 UE 将 接收 该 块 ， 
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然后 更 新 指向 该 即将 被 发 送 块 的 局 部 指针 (bblock ): 


send to = TO(my_ID, iphase, num, procs); 
bblock = BLOCK(buff, send_to) ; 


相似 地 ， 我 们 计算 下 一 块 的 来 源 和 对 应 的 局 部 索引 : 


recv_from = FROM(my ID, iphase, num_procs); 
tblock = BLOCK(trans, recv from); 


这 个 过 程 持续 下 去 ， 直 到 所 有 的 块 都 转 置 完 毕 。 

本 例 使 用 非 阻 塞 发 送 (MPI Isend) 和 接收 (MPI Irecv) 操作 (附录 B 更 详细 地 
描述 这 些 原 语 )。 在 每 个 阶段 ，UE 首先 调用 MPI Irecv 畏 数 ， 然 后 再 对 它 即 将 发 送 的 块 进 
行 转 置 操 作 ， 转 置 完 成 后 ， 将 该 块 发 送 到 应 当 接收 它 的 UE 中 。 在 循环 底部 ( 进行 下 一 阶段 
之 前 )， 程 序 调 用 几 个 MPI Wait 函数 ， 强 迫 UE 等 待 ， 直 到 发 送 和 接收 都 完成 为 止 。 这 种 
方法 允许 通信 和 计算 的 重 又 。 更 重要 的 是 ( 因为 在 这 个 示例 中 ， 不 存在 大 量 的 计算 和 通信 重 
& )， 防 止 死 锁 的 出 现 。 一 种 使 用 规则 发 送 和 接收 操作 的 更 简单 方法 是 : 首先 转 置 将 被 发 送 的 
块 ， 然 后 发 送 它 ， 最 后 (等待 ) 从 其 他 UE 接收 一 个 块 。 但 是 ， 当 被 发 送 的 块 很 大 时 ， 规 则 
发 送 可 能 会 被 阻塞 。 这 是 因为 没有 用 于 存储 消息 的 足够 缓冲 空间 。 在 这 个 示例 中 ,这样 的 阻 
塞 能 够 产生 死 锁 。 通 过 使 用 非 阻 塞 的 发 送 和 接收 操作 ， 并 首先 调用 非 阻 塞 接收 操作 ， 避 免 了 

知名 应 用 。 这 种 模式 广泛 应 用 于 科学 计算 。 著 名 的 ScaLAPACK 包 [Sca, BCC'97] Kit 
使 用 2D 块 周期 分 配 法 ， 其 文档 给 出 了 这 种 分 配方 法 的 映射 和 索引 的 详细 解释 。 

在 HPF 语言 [HPF97] 的 定义 中 通信 了 几 种 不 同 的 数组 分 配方 法 。 

在 量子 化 学 中 ， 特 别 是 在 post Hartree Fock 计算 领域 中 ， 可 以 找到 这 种 模式 的 某 些 最 
具 创造 性 的 应 用 。 在 post Hartree Fock 算 法 中 ， 专 门 创建 了 全 局 数组 (GA) 包 [NHL94, 
NHL96、NHK “02、Gloa]， 以 解决 分 布 式 数组 问题 。 在 [NHL96、LDSH95] 中 描述 了 一 种 更 
新 的 方法 。 

PLAPACK 包 [ABE'97, PLA, vdG97] 采用 了 一 种 不 同 的 方法 进行 数组 分 配 。 虽 然 
PLAPACK 主要 考虑 如 何 根据 数 组 的 组 织 方式 使 用 向 量 ， 而 不 是 如 何 分 配 数组 。 但 是 ， 根 据 
这 些 分 布 式 向 量 ， 可 派生 出 对 应 的 数组 分 配 。 在 许多 问题 中 ， 这 些 向 量 对 应 于 问题 领域 中 的 
物理 量 ， 因 此 PLAPACK 小 组 称 此 为 基于 物理 的 分 配 法 。 

6. 相关 模式 

分 布 式 数 组 模式 常常 与 几何 分 解 模 式 和 SPMD 模式 一 起 使 用 。 


5.11 其 他 支持 结构 


这 门 模式 语言 ( 以 及 支持 结构 模式 ) 是 基于 OpenMP. MPI 与 Java 程序 员 在 共享 内 存 和 
分 布 式 内 存 MIMD 计算 机 上 编写 代码 的 惯例 。 在 大 多 数 情形 中 ， 并 行 应 用 程序 程序 员 将 在 这 
门 模式 语言 中 找到 他 们 需要 的 模式 。 

但 是 ， 存 在 一 些 其 他 模式 (具有 自己 的 支持 结构 )， 在 某 些 情况 下 ， 这 些 模式 对 于 并 行 编 
程 来 说 是 非常 重要 的 。 虽 然 很 少 使 用 ， 但 很 有 必要 了 解 它 们 。 这 些 模 式 为 寻找 和 挖掘 并 行 应 
用 程序 的 并 发 性 提供 见解 。 随 着 并 行 体 系 结构 的 不 断 演 化 ， 这 些 模 式 所 建议 的 并 行 编程 技术 
很 可 能 变 得 非常 重要 。 
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本 节 将 简短 地 描述 其 中 几 种 额外 模式 及 其 支持 结构 : SIMD, MPMD, ÈP 35 - 服务 器 和 
声明 性 编程 (declarative programming )。 我 们 以 问题 求解 环境 的 简短 讨论 来 结束 本 节 ， 这 些 不 
是 模式 ， 但 它们 有 助 于 程序 员 在 一 个 目标 问题 集中 的 工作 。 


5.11.1 SIMD 


在 SIMD 计算 机 中 ， 单 指令 流 作用 在 多 个 数据 流 上 。 这 些 机 器 的 灵感 源 于 一 个 共识 ， 即 
程序 员 将 发 现 管理 多 个 指令 流 是 非常 困难 的 ， 以 至 于 无 法 完成 。 许 多 重要 的 问题 是 数据 并 行 
21] AY ; 即 可 以 根据 对 问题 数据 领域 的 并 发 更 新 来 表达 并 发 性 。 根 据 它 的 逻辑 极限 ，SIMD 方法 
假设 可 以 根据 数据 来 表达 所 有 并 行 性 。 然 后 程序 将 具有 单线 程 语 义 ， 使 得 对 程序 的 理解 和 调 
试 变 得 非常 容易 。 可 将 SIMD 模式 的 基本 思想 概括 如 下 。 | 
e 定义 一 个 由 虚拟 PE 组 成 的 网 络 ， 这 些 PE 将 被 映射 到 实际 PE 上 ， 通 过 明确 定义 的 
拓扑 结构 将 这 些 虚拟 PE 连接 起 来 。 理 想 情 况 下 ， 该 拓扑 结构 具有 两 个 特征 : ESD 
理 机 器 中 的 PE 的 连接 方式 具有 很 好 的 匹配 ; 对 于 所 求解 问题 所 隐 含 的 通信 模式 是 有 
效 的 。 ! 
e 根据 一 些 数组 或 其 他 规则 数据 结构 来 表达 问题 ， 而 且 能 够 利用 单个 指令 流 来 并 发 更 新 
这 些 数组 或 数据 结构 。 
e 将 这 些 数组 与 虚拟 PE 的 局 部 内 存 相 关联 。 
e 创建 单个 指令 流 ， 该 指令 流 操作 一 些 分 块 的 规则 数据 结构 。 这 些 指令 可 以 具有 一 个 相 
关 的 掩 码 ， 使 得 它们 能 有 选择 地 跳 过 某 些 数组 元 素 子 集 。 这 对 于 处 理 边界 条 件 和 其 他 
约束 来 说 ， 是 非常 关键 的 。 
对 于 一 个 真正 的 数据 并 行 问 题 ， 这 种 模式 非常 高 效 ， 程 序 的 编写 和 调试 也 相对 容易 
[DKK90]. 
遗憾 的 是 ， 大 多 数 数据 问题 包含 一 些 不 是 数据 并 行 的 子 问 题 。 建 立 核 心 数据 结构 ， 处 理 
边界 条 件 ， 以 及 在 一 个 核心 数据 并 行 算法 之 后 的 后 处 理 ， 都 能 够 引入 不 是 严格 数据 并 行 的 逻 
辑 。 此 外 ， 这 种 类 型 的 编程 与 支持 数据 并 行 编程 的 编译 器 紧密 相关 。 这 些 编译 器 的 编写 困难 ， 
导致 所 产生 的 代码 难于 优化 ， 因 为 它 可 能 与 一 个 程序 在 一 个 特定 机 器 上 的 运行 方式 相差 很 远 。 
这 样 ， 除 了 少数 用 于 信和 号 处 理应 用 的 专用 机 器 外 ， 这 类 并 行 编程 及 依照 SIMD 概念 所 构建 的 
机 器 已 经 大 量 消 失 。 
与 SIMD 模式 最 紧密 相关 的 编程 环境 是 高 性 能 Fortran(HPF) [HPF97]。HPF 是 Fortran90 
中 基于 数组 构造 的 一 种 扩展 。HPF 的 出 现 是 为 了 支持 SIMD 机 器 上 的 可 移植 并 行 编程 ， 且 人 允 
VF SIMD 编程 模型 适用 于 MIMD 计算 机 。 这 需要 显 式 地 控制 数据 在 PE 中 的 位 置 ， 并且 可 以 
在 计算 期 间 重新 映射 数据 。 但 是 ， 对 严格 的 数据 并 行 SIMD 模型 的 依赖 性 ， 决 定 了 HPF 难以 
用 于 复杂 的 应 用 。 最 后 的 大 型 HPF 用 户 团 体位 于 日 本 [ZJS'*02]， 他 们 已 经 扩展 了 这 种 语言 ， 
以 放宽 了 一 些 数据 并 行 约束 [HPF99]。 


5.11.2 MPMD 


顾名思义 ， 当 不 同 程序 运行 在 不 同 UE 上 时 ， 在 并 行 算法 中 使 用 多 程序 多 数据 (MPMD ) 
模式 ， 基 本 方法 如 下 所 示 。 
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e 将 问题 分 解 为 一 个 子 问题 集合 ， 其 中 每 一 个 子 问题 映射 到 一 个 UE FRE. 3876 8 — 
个 UE 子 集 对 应 于 另 一 个 并 行 计算 机 上 的 一 些 节点 。 

e 创建 一 些 独 立 的 程序 来 求解 适当 子 问题 ， 并 与 相关 的 目标 UE 协调 。 

e 当 需 要 时 ， 协 调运 行 于 各 个 UE 上 的 程序 ， 通 常 通过 一 种 消息 传递 框架 实现 。 

在 许多 方面 ，MPMD 方法 与 一 个 使 用 MPI 的 SPMD 程序 相差 不 大 。 事 实 上 ，MPI 最 常 
见 的 两 种 实现 (MPICH [MPI] 和 LAM/MPI [LAM]) 的 运行 时 环境 都 支持 简单 的 MPMD 
编程 。 

MPMD 模式 的 应 用 通常 源 于 以 下 两 种 情形 之 一 。 第 一 ，UE 的 体系 结构 可 能 差别 很 大 ， 
以 至 无 法 在 整个 系统 上 使 用 单个 程序 。 例 如 ， 当 在 某 种 使 用 多 种 类 型 的 高 性 能 计算 体系 结构 


的 计算 网 格 [Glob FK03] 中 使 用 并 行 计算 时 。 当 完全 不 同 的 模拟 程序 被 组 合 为 一 个 相互 耦合 


的 模拟 时 为 第 二 种 〈 并 且 从 平行 算法 的 角度 更 有 趣 的 ) 情形 。 

例如 ， 气 候 是 由 大 气 及 海洋 现象 之 间 的 复杂 的 相互 作用 形成 的 。 单 一 的 海洋 或 大 气 模拟 
程序 已 经 开发 及 优化 了 多 年 ， 且 模型 很 容易 理解 。 虽 然 SPMD 程序 可 以 直接 实现 海洋 和 大 气 
之 间 的 耦合 模型 ， 但 是 一 种 更 有 效 的 方法 是 采用 独立 的 、 经 过 验证 的 海洋 及 大 气 模 拟 方案 ， 
然后 通过 某 种 中 间 层 将 两 者 进行 斐 合 ， 从 而 由 容易 理解 的 组 件 模型 得 到 一 种 新 的 耦合 模型 。 

尽管 MPICH 和 LAM/MPI 均 对 MPMD 编程 提供 一 定 支 持 ， 但 是 它们 不 允许 不 同 的 MPI 
实现 间 的 交互 ， 因 此 仅 支 持 那 些 使 用 一 种 通用 MPI 实 现 的 MPMD 程序 。 为 了 解决 不 同体 系 
结构 和 不 同 MPI 实现 上 的 更 大 范围 的 MPMD 问题 ， 出 现 了 一 种 称 为 可 互 操作 MPI (iMPI ) 
的 新 标准 。 对 于 MPI 和 iMPI 来 说 ， 利 用 信息 交换 来 协作 UE 的 思想 是 通用 的 ,但 是 只 在 
iMPI 中 进行 了 详细 的 语义 扩展 ， 以 解决 运行 在 差别 很 大 的 体系 结构 上 的 程序 所 带 来 的 独特 挑 
战 。 这 种 多 体系 结构 问题 将 显著 增加 通信 开销 ， 因 此 依赖 于 iMPI 性 能 的 算法 部 分 必须 是 相对 
粗 粒 度 的 。 

MPMD 程序 极 罕见 。 但 随 着 复杂 的 耦合 模拟 越 来 越 重 要 ，MPMD 模式 的 使 用 将 会 增加 。 
当 网 格 技术 变 得 更 成 熟 和 更 广泛 部 署 时 ，MPMD 模式 的 使 用 也 将 增加 。 


5.11.3 ”客户 端 - 服务 器 计算 


客户 端 - 服务 器 体系 结构 与 MPMD 相关 。 传 统 上 ， 这 些 系 统 由 两 层 或 三 层 组 成 ， 其 中 
前 端 是 在 客户 计算 机 上 执行 的 图 形 用 户 界面 ， 一 个 主机 后 端 (通常 具有 多 个 处 理 器 ) 提供 了 
对 一 个 数据 库 的 访问 。 中 间 层 (如果 存在 ) 分 配 从 客户 到 ( 可 能 是 多 个 ) 后 端的 请 求 。Web 
服务 顺 是 一 个 熟悉 的 客户 端 - 服务 器 系统 示例 。 更 通用 的 情形 是 ， 服 务 器 可 以 为 客户 提供 大 
量 的 服务 ， 系 统 的 本 质 方面 是 服务 具有 定义 完善 的 接口 。 并 行 性 可 以 出 现在 服务 器 端 ( 以 使 
得 能 够 同时 服务 许多 客户 ， 或 者 能 够 使 用 并 行 处 理 以 为 单个 请 求 更 快速 地 获得 结果 ) 和 客户 
端 ( 以 使 得 能 够 同时 初始 化 对 多 个 服务 右 的 请 求 )。 

在 异 构 系 统 中 ， 客 户 端 -服务 器 中 所 使 用 的 技术 特别 重要 。 中 间 件 (例如 CORBA 
[COR] ) 提供 了 一 种 服务 接口 规范 标准 ， 使 得 通过 组 合 现 有 服务 来 编排 新 程序 ， 即 使 在 差别 
很 大 的 硬件 平台 中 提供 这 些 服务 并 采用 不 同 的 编程 语言 实现 这 些 服 务 。CORBA 也 提供 了 定位 
服务 的 设备 。J2EE (Java 2 平台 , 企业 版 ) [Javb] 也 对 客户 端 - 服务 器 应 用 程序 提供 了 显著 
的 支持 。 在 这 两 种 情形 中 ， 可 互 操作 性 是 所 面临 的 主要 设计 问题 。 
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传统 上 ， 客 户 端 - 服务 器 体系 结构 用 于 商业 领域 ， 而 不 是 科学 应 用 中 。 广 泛 地 应 用 于 科 
学 计算 的 网 格 技术 借鉴 了 客户 端 - 服务 器 技术 ， 并 通过 模糊 客户 端 与 服务 器 端 之 间 的 区 别 对 
其 进行 扩展 。 一 个 网 格 中 的 所 有 资源 ， 无 论 它们 是 计算 机 、 仪 器 、 文 件 系统 ， 还 是 其 他 连接 
到 网 络 中 的 资源 ， 都 是 对 等 的 且 可 以 作为 客户 端 和 服务 器 。 中 间 件 提供 了 基于 标准 的 接口 ， 
用 于 将 分 布 在 多 个 可 管理 域 的 资源 捆绑 成 单个 系统 。 


5.11.4 ”使 用 声明 语言 的 并 发 编程 


绝 大 多 数 编程 采用 命令 式 语 言 (imperative language) IR, Win, C+, Java 或 者 
Fortran。 特 别 是 对 于 传统 的 科学 和 工程 应 用 程序 来 说 ， 更 是 这 样 。 但 是 ， 人 工 智 能 社区 和 
少数 理论 计算 机 科学 家 已 经 开发 并 成 功 演示 了 一 种 不 同类 型 的 语言 ， 声 明 语 言 (declarative 
language )。 在 这 类 语言 中 ， 程 序 员 描 述 了 一 个 问题 、 一 个 问题 域 和 一 些 必 须 满足 的 条 件 。 然 
后 与 该 语言 相关 联 的 运行 时 系统 使 用 这 些 内 容 寻找 有 效 的 解决 方案 。 

声明 语义 强制 了 一 种 不 同类 型 的 编程 方式 ， 该 方式 涵盖 了 本 模式 语言 中 讨论 的 一 些 方法 ， 
但 也 存在 一 些 不 同 。 声 明 语 言 有 两 种 重要 类 型 : 六 数 式 语 言 和 逻辑 编程 语言 。 

逻辑 编程 语言 基于 逻辑 推论 的 形式 规则 。 到 目前 为 止 ， 最 常用 的 逻辑 编程 语言 是 Prolog 
[SS94]， 它 是 基于 第 一 阶 谓词 运算 的 编程 语言 。 当 扩展 Prolog 以 支持 并 行 性 表达 时 ， 结 果 是 
一 种 并 发 逻辑 编程 语言 。 在 这 些 Prolog 扩展 中 ， 采 用 以 下 三 种 方式 之 一 来 挖掘 并 发 性 :“ 与 ” 
并 行 性 ( 执行 多 个 谓词 ),“ 或 ”并 行 性 ( 执行 多 个 防护 ( guard ) )， 或 者 显 式 地 映射 通过 一 些 
单 赋值 变量 链接 在 一 起 的 谓词 [CG861]。 

在 20 世纪 80 年 代 末 期 和 90 年 代 早 期 ， 并 发 逻辑 编程 语言 是 一 个 热门 的 研究 领域 。 它 们 
最 终 都 失败 了 ， 因 为 大 多 数 程 序 员 钟情 于 更 传统 的 命令 式 语言 。 即 使 声明 语义 具有 很 多 优点 ， 
逻辑 编程 对 于 符号 推理 具有 很 大 的 价值 ， 但 学 习 这 些 语言 的 艰难 性 阻止 了 它们 的 发 展 。 

较 老 的 和 更 确定 类 型 的 声明 编程 语言 基于 函数 式 编 程 模 式 [Hud89]。LISP 是 最 老 的 和 最 
著名 的 函数 式 语言 。 在 纯 肾 数 式 语言 中 ， 孔 数 中 不 存在 副作用 。 因 此 只 要 能 获得 输入 数据 ， 
就 能 够 执行 该 函数 。 最 终 算 法 根据 程序 中 的 数据 流 来 表达 并 发 性 ， 因 此 最 终 得 到 “数据 流 ” 
算法 [Jag96]。 

最 著名 的 并 发 函数 式 语言 是 Sisal[FC090]、Concurrent ML [Rep99、Con] ( 对 ML 的 一 种 
扩展 ) 和 Haskell [HPF]。 因 为 数学 表达 式 可 采用 函数 符号 自然 地 表示 ， 所 以 Sisal 对 于 处 理 
科学 和 工程 应 用 程序 来 说 是 简单 明了 的 ,已 经 证 明 它 在 并 行 编 程 方面 非常 高 效 。 但 是 ， 正 像 
逻辑 编程 语言 一 样 ， 程 序 员 不 希望 放弃 他 们 熟悉 的 命令 式 语言 ， 因 此 Sisal RAAKT. BRE 
Concurrent ML 和 Haskell 在 函数 式 编程 团体 中 都 很 流行 ， 但 它们 并 没有 在 高 性 能 计算 领域 获 
得 显著 进展 。 


5.11.5 ”问题 求解 环境 


如 果 不 提 到 问题 求解 环境 (PSE )， 将 无 法 全 面 讨论 并 行 算法 支持 结构 。PSE 是 一 种 针对 
特定 类 型 问题 需求 的 编程 环境 。 当 应 用 于 并 行 计算 时 ，PSE 的 隐 含 意义 也 是 一 种 特定 的 算法 
结构 。 

PSE 的 动机 是 向 应 用 程序 员 屏 蔽 并 行 系统 的 底层 细节 。 例 如 ，PETsc ( 用 于 科学 计算 的 
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可 移植 、 可 伸缩 工具 包 ) [BGMS98] 支持 大 量 的 分 布 式 数 据 结构 和 使 用 它们 求解 偏 微分 方程 
(通常 用 于 求解 适合 几何 分 解 模 式 的 问题 ) 所 需要 的 函数 。 程 序 员 需 要 理解 PETSc 中 的 数据 
结构 ， 但 不 必 和 掌握 如 何 高 效 和 可 移植 地 实现 的 细节 。 其 他 重要 的 PSE 是 PLAPACK [ABE'97] 
(用 于 稠密 线性 几何 问题 ) 和 POOMA [RHC*96] (一 种 用 于 科学 计算 的 面向 对 象 框架 )。 

PSE 并 未 得 到 广泛 接受 。PETSc 很 可 能 是 广泛 用 于 应 用 编程 的 仅 有 PSE。 由 于 它们 所 面 
向 的 问题 领域 比较 罕 ， 因 此 PSE 限制 了 潜在 的 用 户 ， 很 难 获得 广泛 的 推广 。 我 们 相信 ， 随 着 
时 间 的 推移 ， 并 行 算法 的 核心 模式 将 变 得 更 易于 理解 ，PSE 将 能 够 扩大 它们 的 影响 ， 在 并 行 
编程 中 成 为 一 文 重要 的 力量 。 
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前 几 章 已 经 详细 介绍 了 如 何 设 计算 法 和 用 于 组 织 并 行程 序 的 高 层次 结构 等 内 容 。 本 章 将 
介绍 的 内 容 主要 包括 程序 源 代 码 和 并 行程 序 低层 次 操作 。 

对 于 并 行 编程 首先 要 确定 低层 操作 及 其 实现 机 制 ， 虽 然 计 算 机 指令 集 可 被 高 级 编程 语言 
调用 ， 但 它 并 没有 区 分 串 行 程序 和 并 行程 序 。 我 们 所 关心 的 是 并 行 编程 中 独特 的 实现 机 人 制 。 
我 们 将 详细 介绍 并 行 编程 的 这 些 “ 构 造 块 "。 幸 运 的 是 ， 大 多 数 并 行程 序 员 仅 需要 使 用 这 些 机 
制 中 一 个 核心 子 集 。 核 心 实现 机 制 分 为 3 25: 


e UE 管理 

e 同步 

e 通信 

本 章 介 绍 了 这 3 类 最 常用 的 机 制 。 实 现 机 制 设 计 空 间 的 框图 和 它 在 编程 模式 中 的 位 置 如 
8 64 Brom. 


本 章 将 忽略 并 行 编程 模式 的 具体 形 
式 。 由 于 大 多 数 并 行 编程 环境 均 内 置 常 用 
的 实现 机 制 ， 因 此 本 章 不 蒙 述 这 些 模式 的 
使 用 方式 ， 仅 对 每 种 实现 机 制 进行 高 层次 
描述 并 讨论 每 种 机 制 如 何 映射 到 三 种 目标 
编程 环境 : OpenMP、MPI 和 Java。 这 种 
映射 在 某 些 情况 下 比较 琐碎 ， 比 API 或 一 
门 语言 所 包含 的 构造 需要 更 多 的 知识 。 打 图 6-1 实现 机 制 设计 空间 的 总 体 框图 
别 是 在 对 某 种 编程 模型 中 包含 而 在 男 一 些 和 它 在 编程 模式 中 的 位 置 
编程 模型 没有 的 一 些 操作 进行 介绍 时 该 讨论 将 更 有 趣 。 例 如 ， 在 OpenMP 中 实现 消息 传递 是 
可 行 的 ， 虽 然 并 不 完美 ， 但 它 能 够 工作 ， 并 且 有 时 非常 有 用 。 

本 书 假定 读者 已 熟悉 OpenMP, MPI 和 Java， 以 及 利用 它们 编写 并 行程 序 的 方式 。 本 章 
将 介绍 这 些 API 的 一 些 特 征 ， 使 用 它们 的 详细 信息 见 附 录 。 





并 行 编程 通过 将 指令 映射 到 多 个 UE 上 来 挖掘 并 发 性 。 每 个 并 行程 序 必须 实现 : 创建 UE 
合 ; 管理 UE 之 间 的 交互 和 对 共享 资源 的 访问 ; 在 UE 之 间 交 换 信息 ; 以 某 种 顺序 关闭 UE. 
这 些 需求 将 实现 机 制 分 成 3 类 。 
e UE 管理 。 创 建 、 销 毁 和 管理 并 行 计算 中 使 用 的 进程 与 线程 。 
e 同步 。 对 不 同 UE 中 的 事件 强制 约定 某 种 顺序 ， 确 保 当 UE 集合 访问 共享 资源 时 ， 不 
论 如 何 调度 这 些 UE， 程 序 都 能 够 正确 执行 。 
e 通信 。 在 UE 之 间 交 换 信 息 。 
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6.2 UE 管理 


回顾 执行 单元 (或 UE ) 的 定义 ，UE 是 由 操作 系统 为 程序 员 管 理 并 执行 计算 的 实体 的 抽 
象 。 在 现代 并 行 编程 环境 中 ， 存 在 两 种 UE: 进程 和 线程 。 

进程 是 一 种 重量 级 对 象 ， 它 包括 定义 在 系统 中 的 位 置 所 需要 的 状态 或 上 下 文 ， 包 括 内 存 、 
程序 计数 器 、 寄 存 器 、 缓 冲 区 、 打 开 的 文件 和 在 操作 系统 内 定义 它 的 上 下 文 所 需要 的 任何 内 
容 。 在 许多 系统 中 ,不同 进程 可 以 属于 不 同 用 户 ， 这 样 进程 就 得 到 了 保护 。 创 建新 进程 和 在 
进程 之 间 交 换 信息 的 开销 很 大 ， 因 为 所 有 状态 都 必须 保存 和 还 原 。 即 使 是 在 同一 合 机 器 中 的 
进程 间 通 信 ， 由 于 必须 越过 保护 边界 ， 因 此 其 开销 也 是 非常 昂贵 的 。 

线程 是 一 种 轻 量 级 UE。 一 个 进程 中 包含 一 个 线程 集合 。 属 于 进程 的 大 多 数 资源 ， 包 括 内 
存 等 ， 都 由 进程 内 线程 共享 ， 因 此 创建 新 线程 和 进行 线程 间 上 下 文 切换 的 开销 较 低 ， 仅 需要 
保存 程序 计数 顺和 茶 些 寄 存 器 。 属 于 同一 个 进程 的 线程 间 通 信 开 销 也 较 低 ， 因 为 可 以 通过 访 
问 共享 内 存 来 完成 它 。 

这 两 种 类 型 UE 的 管理 机 制 是 完全 不 同 的 ， 我 们 将 分 别 在 下 面 两 节 介 绍 。 


6.2.1 线程 的 创建 / 销毁 


创建 线程 需要 一 定 的 机 器 周期 。 根 据 需要 程序 员 可 以 在 程序 中 合理 地 创建 和 销毁 线程 ， 
只 要 不 在 密集 循环 或 时 间 关 键 的 内 核 (time-critical kernel ) 中 进行 这 些 操作 ， 程 序 整 体 运 行 
时 间 将 不 会 受到 太 大 影响 。 因 此 ， 大 多 数 并 行 编程 环境 提供 一 些 支 持 线程 创建 和 销毁 的 API. 
OpenMP: 线程 的 创建 / 销毁 。 在 OpenMP 中 ， 创 建 线 程 的 并 行 指令 为 : 


#pragma omp parallel 
{ structured block } 


每 个 线程 独立 执行 ( 代码 块 structured block 中 的 指令 。 代 码 块 是 在 顶部 具有 单 和 人口 点 
和 在 底部 具有 单 出 口 点 的 语句 块 。 

OpenMP 中 创建 线程 的 数目 要 么 由 操作 系统 控制 ， 要 么 由 程序 员 控 制 ( 详 见 附录 A )。 

线程 的 销毁 发 生 在 代码 块 的 末尾。 线程 到 达 代 码 块 的 尾部 时 先 处 于 等 待 状态 ， 当 所 有 线 
程 到 达 之 后 一 起 被 销毁 ， 初 始 线程 或 主线 程 则 继续 执行 。 

Java: 线程 的 创建 / 销毁。 在 Java 中， 线程 是 java.lang.Thread 类 的 实例 或 者 
Thread 类 的 子 类 。 通 常 使 用 关键 字 new 初始 化 Thread 对 象 ， 然 后 调用 start 方法 启动 
相应 线程 。 这 样 创建 的 线程 可 以 访问 根据 Java 的 作用 域 规则 可 见 的 所 有 变量 。 

可 通过 两 种 方法 来 声明 一 个 线程 的 行为 。 第 一 种 方法 是 创建 Thread 的 子 类 并 重 写 
run 方法 。 下 面 的 代码 演示 了 如 何 采 用 这 种 方法 创建 一 个 线程 ， 当 该 线程 启动 后 ， 它 将 执行 
thread body。 


class MyThread extends Thread 
{ public void run(){ thread body }} 


为 了 创建 并 触发 线程 ， 需 要 编写 如 下 代码 : 


Thread t = new MyThread(); //create thread object 
t.start(); //launch the thread 


第 二 种 方法 需要 和 定义 一 个 类 ， 实 现 java.lang.Runnable 接口 ， 该 接口 只 包含 一 个 


x. 


RW 


方法 public void run(), 并 传递 Runnable 类 的 一 个 实例 给 Thread 构造 函数 。 例 如 ， 
首先 定义 Runnable 类 : 


class MyRunnable implements Runnable 
{ public void run(){ thread_body }} 


为 了 创建 并 执行 线程 ， 创 建 Runnable 对 象 并 将 它 传递 给 Thread Wik. Rath 
用 start 方法 启动 线程 : ! 
Thread t = new Thread(new MyRunnable()); //create Runnable 


//and Thread objects 
t.start(); //start the thread 


在 大 多 数 情况 下 ， 第 二 种 方法 “更 为 常用 。 

当 run 方法 返回 时 线程 终止 。 与 任何 其 他 Java 程序 中 的 对 象 一 样 ，Thread 对 象 在 终止 
后 会 被 垃圾 回收 天 回 收 。 

java.util.concurrent WX Executor fil ExecutorServices 接口 ， 并 提供 
实现 它们 的 几 个 类 ， 这 些 类 直接 支持 高 级 结构 ， 如 主 /从 模式 ， 在 Runnable 的 执行 过 程 中 
隐藏 线程 的 创建 和 调度 等 细节 。 更 详细 的 信息 见 附录 Co 

MPI: 线程 的 创建 / 销毁 。MPI 基本 上 是 基于 进程 的 ,但 MPI 2.0 API[Mesa] 定义 了 不 同 
级 别 的 线程 安全 ， 并 提供 了 在 运行 时 查询 系统 所 支持 的 线程 安全 级 别 的 功能 ， 因 此 MPI 也 是 
线程 可 识别 的 。 但 MPI 不 具有 创建 和 销毁 线程 的 功能 。 要 在 MPI 程序 中 使 用 线程 ， 除 了 MPI 
之 外 ,程序 员 必须 使 用 基于 线程 的 编程 模型 。 


6.2.2 进程 的 创建 / 销毁 


进程 包含 在 操作 系统 中 定义 其 位 置 的 所 有 信息 。 除 了 程序 计数 器 和 寄存 器 之 外 ， 进 程 还 
包含 存储 空间 ( 即 地 址 空间 )、 系 统 缓冲 区 和 定义 操作 系统 中 其 状态 所 需 的 任何 信息 。 因 此 ， 
进程 创建 和 销毁 开销 较 高 ， 不 经 常 执 行 此 类 操作 。 

MPI : 进程 的 创建 / 销毁 。 在 更 早 的 消息 传递 API, 例如 PYM [Sun90] 中 ， 把 创建 新 进 
程 的 功能 能 入 API 中 ,程序 员 可 以 使 用 PVM spawn 命令 新 建 进程 : 


PVM_Spawn(node, program-executable) 


PVM 允许 程序 员 控 制 一 个 程序 中 哪些 计算 运行 在 哪 一 个 节点 上 。 但 是 ， 在 MPI 1.1 中 ， 
这 种 能 力 只 能 由 运行 环境 决定 ， 程 序 员 无 法 控制 。 表 面 上 这 似乎 是 种 退步 ， 但 这 样 做 有 两 个 
原因 : 首先 ， 通 过 观察 发 现 大 量 PVM 程序 基于 SPMD 模式 ， 因 此 将 这 种 模式 构建 到 MPI 中 
是 有 意义 的 ; 其 次 ， 这 种 标准 能 在 更 广 范围 的 并 行 体系 结构 中 实现 。MPI 研讨 会 定义 MPI 标 
准时 ， 大 多 数 MPP 计算 机 不 能 简单 地 实现 spawn 语句 。 

作为 MPI 中 创建 进程 的 示例 ， 考 虑 一 个 执行 函数 foo 的 MPI 程序 。 程 序 员 利用 下 面 的 
命令 在 多 个 (在 该 示例 中 是 4 个 ) 处 理 器 上 并 行 执 行 : 


mpirun -np 4 foo 


运行 时 ， 系 统 查询 一 个 包含 所 有 节点 名 字 的 标准 文件 ， 选 出 其 中 4 个 节点 ， 并 在 每 个 节 


日 在 Java 中 ,一 个 类 可 以 实现 任意 数目 的 接口 ， 但 仅 允 许 扩展 一 个 超 类 。 这 样 在 第 一 种 方法 中 扩展 Thread 


类 就 意味 着 定义 了 run 方法 的 类 不 能 扩展 一 个 特定 于 应 用 程序 的 类 。 
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点 上 启动 相同 的 命令 。 
当 运 行 在 并 行 计算 机 节点 上 的 程序 退出 时 ， 进 程 被 销毁 。 为 了 保证 彻底 终止 ，MPI 程序 


的 最 后 一 条 执行 语句 为 : 
MPI_Finalize() 


如 果 异 常 退 出 ， 例 如 在 发 生 外 部 中 断 时 退出 ， 则 有 可 能 遗留 一 些 子 进程 ， 此 时 系统 要 负 
责 清除 遗留 的 任何 进程 。 在 大 型 环境 中 ，MPI 程序 频繁 地 创建 和 退出 ， 所 以 系统 必须 采取 适 
当 的 清除 机 制 ， 否 则 将 导致 过 量 的 负载 。 | 

Java: 进程 的 创建 /销毁 。 一 个 Java 运行 时 (实现 Java 虚拟 机 规范 ) 的 实例 通常 对 
应 于 一 个 进程 ， 它 包含 它 支 持 的 Java 程序 所 创建 的 所 有 线程 。 标 准 API 的 java.lang. 
Process 类 和 java.lang.Runtime 类 中 包含 一 些 用 于 创建 新 进程 以 及 与 进程 通信 和 同 
步 的 工具 。 但 通常 在 Java 程序 调用 其 他 非 Java 程序 时 才 使 用 这 些 进 程 ， 并 不 是 为 了 实现 并 行 
性 。 事 实 上 ，Java 虚拟 机 规范 甚至 不 要 求 新 的 子 进程 与 父 进程 并 发 执行 。 

Java 也 可 以 用 于 分 布 式 内 存 机 器 ， 此 时 利用 操作 系统 工具 可 在 每 一 台 机 需 中 局 动 一 个 
JVM 实例 。 

OpenMP : 进程 的 创建 / 销毁 。OpenMP 利用 API 实现 多 线程 编程 。 这 些 线程 共享 单个 
HFE, OpenMP 没有 创建 或 销毁 进程 的 能 力 。 

OpenMP 扩展 到 分 布 式 内 存 计算 机 ， 即 扩展 为 一 个 多 进程 模型 是 一 个 的 研究 热点 
[SLGZ99、BB99、Omn]。 这 些 系 统 通 常 采 用 MPI 技术 ， 并 将 进程 的 创建 和 销毁 留 给 运行 环境 。 


6.3 同步 


同步 是 对 多 个 UE 中 发 生 的 事件 先后 顺序 的 强制 约束 。 已 有 大 量 介绍 同步 的 文献 
[And00]。 同 步 非 常 复杂 且 易 出 错 ， 因 此 大 多 数 程序 员 通 常 仅 使 用 少量 同步 方法 。 


6.3.1 AREA Es D 


Fe BY A SES AA eb A, ES UE 执行 一 个 指令 序列 ， 其 中 包括 大 量 共享 内 
存 读 写 操作 。 可 以 将 所 有 的 计算 视 为 一 个 原子 事件 序列 ， 其 事件 交错 地 来 自 于 不 同 UE。 如 果 
UE A 写 一 个 内 存 位 置 ，UE B 读 该 位 置 ， 则 UE B 将 得 到 UE A 所 写 的 值 。 

例如 ,假设 UE A 做 某 些 工作 ， 然 后 将 变量 done 设置 为 真 。 此 时 , UE B 执行 一 个 循环 : 


while (!done) {/*do something but don’t change done*/} 


在 这 个 简单 模型 中 , UE A 最 终 设 置 变量 done。 在 下 一 个 循环 迭代 中 , UE B 将 读 取 新 值 ， 
并 终止 循环 。 

但 是 有 几 种 情况 会 导致 错误 。 首 先 ， 由 于 新 值 可 能 位 于 缓存 中 而 不 是 内 存 中 ， 变 量 done 
的 值 可 能 并 没有 被 UE A 写 到 内 存 中 ,或 没有 被 UE B 从 内 存 中 读 取 。 即 使 在 保证 缓存 一 致 性 的 
系统 中 ，done 也 可 能 C 由 于 编译 右 优 化 ) 存储 在 寄存 器 中 ， 因 此 它 对 UE B 不 可 见 。 类 似 地 ， 
UE B 可 能 尝试 读 取 变量 并 获得 一 个 旧 值 ， 或 者 由 于 编译 器 优化 多 次 读 取 该 值 。 通 常 ， 内 存 系统 
属性 、 编 译 器 、 指 令 排 序 等 因素 能 够 协同 以 影响 内 存 内 容 ( 当 查 看 每 个 UE 时 ) 的 不 确定 性 。 

内 存 围 机 (fence) 是 一 种 同步 事件 ， 它 保证 所 有 UE 看 到 一 致 的 内 存 内 容 ， 即 围 栅 之 前 
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的 所 有 写 操作 将 对 围 机 之 后 的 读 操作 可 见 ， 这 与 经 典 模型 所 期 望 的 一 样 ， 围 机 之 后 的 所 有 读 
操作 将 取得 不 早 于 围 栅 之 前 的 最 后 一 次 写 和 人 的 值 。 
«AR, 仅 当 UE 之 间 存 在 上 下 文 共享 时 ， 才 存在 内 存 同 步 问 题 。 因 此 ， 当 UE 是 运行 在 
分 布 式 内 存 环境 中 的 进程 时 ， 通 常 不 会 产生 这 一 问题 。 但 对 于 线程 而 言 ， 在 适当 的 位 置 放置 
围 栅 能 够 保证 具有 多 个 竞 态 条 件 的 程序 之 间 的 正确 执行 。 
内 存 围 栅 的 显 式 管理 十 分 复杂 且 易 于 出 错 。 幸 运 的 是 ， 尽 管 程序 员 需 要 考虑 这 一 问题 ， 
但 很 少 需 要 显 式 处 理 围 栅 。 下 面 将 会 介绍 ， 内 存 围 机 通常 由 高 级 的 同步 构造 所 隐 含 。 
OpenMP: 围 栅 。 在 OpenMP "F, FIH flush 语句 定义 内 存 围 栅 。 


#pragma omp flush 


围 机 使 得 所 有 对 主 调 UE 可 见 的 每 个 变量 在 计算 机 的 内 存 中 更 新 。 因 为 保证 一 致 性 需要 
将 某 些 缓存 行 、 所 有 系统 缓冲 区 和 寄存 器 写 人 内 存 ， 所 以 ftush 操作 开销 较 高 。 男 一 种 开销 
较 低 的 flush 语句 可 以 列举 需要 更 新 的 变量 : 


#pragma omp flush (flag) 


因为 OpenMP 的 高 级 同步 构造 隐 含 了 所 需 的 fush， 所 以 程序 员 很 少 使 用 flush 构造 。 
但 当 程 序 员 创 建 自 定义 同步 构造 时 ，flush 操作 是 非常 重要 的 。 例 如 ， 对 同步 (pairwise 
synchronization ) 中 ， 同 步 发 生 在 特定 的 线程 对 间 ， 而 不 是 整个 线程 组 中 。 因 为 OpenMPAPI 
不 直接 支持 对 同步 ， 所 以 当 算法 需要 它 时 ， 程 序 员 必 须 创 建 对 同步 。 图 6-2 中 的 代码 演示 了 
如 何在 OpenMP 中 使 用 flush 构造 安全 地 实现 对 同步 。 


#include <omp.h> 
#include <stdio.h> 
#define MAX 10 // maz number of threads 


// Functions used in this program: the details of these 

// functions are not relevant so we do not include the 

// function bodies. 

extern int neighbor(int); // return the ID for a thread’s neighbor 
extern void do_a_whole_bunch(int) ; 

extern void do_more_stuff(); 


int main() { 
int flag[MAX]; //Define an array of flags one per thread 
int i; 


for(i=0;i<MAX;i++)flag[i] = 0; 


#pragma omp parallel shared (flag) 
{ 


int ID; 
ID = omp_get_thread_num(); // returns a unique ID for each thread. 





图 6-2 该 程序 演示 了 在 OpenMP 中 实现 对 同步 的 方式 。flush 构造 至 关 重 要 。 它 强制 内 存 
一 致 ， 因 此 使 得 对 flag 数组 的 更 新 可 见 。OpenMP 语法 细节 请 参阅 附录 A 


O ”如果 一 个 程序 在 整个 线程 组 中 使 用 同步 ， 则 同步 的 工作 将 与 于 线程 组 的 大 小 无 关 ， 即 使 线程 组 的 大 小 是 l 


男 一 方面 ， 如 有 果 一 个 具有 对 同步 的 程序 运行 于 单个 线程 上 ， 则 将 产生 死 锁 。OpenMP 的 设计 目标 是 鼓励 代 
码 无 论 运行 于 一 个 线程 还 是 多 个 线程 上 ， 都 产生 等 价 的 结果 ， 即 一 个 称 为 串 行 等 价 性 的 属性 。 这 样 ， 不 具 
有 串 行 等 价 性 的 高 级 构造 (例如 ， 对 同步 ) 都 被 排除 在 API 之 外 。 
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do_a_whole_bunch(ID); // Do a whole bunch of work. 

flag[ID] = 1; // signal that this thread has finished its work 

#pragma omp flush (flag) // make sure all the threads have a chance to 
// see the updated flag value 


while (!flag[neighbor(ID)])( // wait to see if neighbor is done. 


#pragma omp flush(flag) // required to see any changes to flag 
) 


do more stuff(); // call a function that can’t safely start until 
// the neighbor's work is complete 
) // end parallel region 





图 6-2 (22) 


在 程序 中 ， 每 个 线程 具有 两 个 工作 块 ， 与 线程 组 中 其 他 线程 并 发 执行 。 工 作 由 两 个 函数 
表示 : do a whole bunch() 和 do more _stuff(0。 这 两 个 因数 的 内 容 并 不 重要 ( 这 里 
没有 给 出 )。 在 该 例 中 ， 直 到 邻居 完成 第 一 个 函数 (do a whole bunch()) WIER, 一 
个 线程 才能 够 安全 地 开始 第 二 个 函数 (do_more stuff0 ) 的 工作 。 

该 程序 使 用 SPMD 模式 。 在 对 同步 中 ， 线 程 通过 设置 flag 数组 中 的 值 ( 根据 线程 ID R 
引 ) 来 交换 它们 的 状态 。 因 为 数组 必须 对 所 有 的 线程 可 见 ， 所 以 需要 共享 。 在 OpenMP 中 通 
过 一 个 串 行 区 域 〈《 即 先 于 线程 组 的 创建 ) 中 声明 该 数组 来 实现 该 要 求 。 我 们 利用 一 条 并 行 指 
令 来 创建 线程 组 : 

#pragma omp parallel shared(flag) 

当 工 作 完 成 时 ， 线 程 将 它 的 flag 设置 为 1， 以 通知 邻居 线程 ， 此 时 必须 调用 fush 以 确 
保 其 他 线程 能 看 到 更 新 值 : 


#pragma omp flush (flag) 


该 线程 一 直 等 待 ， 直到 其 邻居 完成 了 do a whole bunch) 调用， 它 再 调用 do 


more stuffO: 


while (!flag( neighbor(ID))){ // wait to see if neighbor is done. 
#pragma omp flush(flag) // required to see any changes to flag 
} 


在 OpenMP 中 , flush 操作 仅 影 响 对 主 调 线程 可 见 的 变量 。 如 果 另 一 线程 写 一 个 共享 变量 ， 
并 通过 一 个 flush 强制 它 可 以 被 其 他 线程 读 取 ， 则 读 取 该 变量 的 线程 仍 需 要 执行 一 个 flush 以 
确保 它 读 取 最 新 值 。 因 此 ，while 循环 体 必 须 包含 一 个 fush (flag) 结构 ， 以 确保 线程 看 到 
flag 数组 中 的 新 值 。 

如 前 所 述 ， 确 定 何 时 需要 一 个 flush 是 十 分 复杂 的 。 多 数 情 况 下 ，flush 已 构建 进 同步 结 
构 中 。 但 当 标 准 结构 不 足 并 需要 用 户 自 定义 同步 时 ， 需 要 在 适当 的 位 置 放置 内 存 围 栅 。 

Java: 围 栅 。 与 OpenMP 不 同 ，Java 不 提供 显 式 的 flush s EXE, Java 内 存 模型 
不 由 flush 操作 定义 ， 而 是 根据 关于 “可 见 性 和 对 应 于 锁 操 作 的 顺序 ”的 约束 来 定义 的 。 虽 和 然 

O Java 是 率先 尝试 准确 地 声明 内 存 模型 的 语言 之 一 。 其 初始 规范 不 够 精确 ， 不 支持 某 些 同步 习惯 ， 生 不 允许 


某 些 合理 的 编译 器 优化 ， 从 而 饱 受 批 评 。 在 [JSRa] 中 描述 了 Java 2 1.5 的 新 规范 。 在 本 书 中 ， 我 们 假设 遵 
从 新 规范 。 
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具体 细节 很 复杂 ,但 思想 很 简单 : 假设 线程 1 执行 某 些 操作 ， 并 同时 拥有 锁 工 ， 然 后 释放 锁 ， 
同时 线程 2 获取 锁 工 ， 则 在 线程 1 释放 锁 之 前 ， 所 有 写 对 于 线程 2( 在 获取 锁 之 后 ) 是 可 见 的 。 
进一步 ， 当 一 个 线程 通过 调用 start 方法 启动 时 ， 启 动 线程 可 看 到 在 调用 点 对 于 调用 者 可 见 
的 所 有 写 。 相 似 地 ， 当 一 个 线程 调用 join 时 ， 调 用 者 将 看 到 终止 线程 执行 的 所 有 写 。 

Java 人 允许 变量 被 声明 为 volatile 类 型 。 当 一 个 变量 被 标记 为 volatile 时 ， 对 该 变量 的 
所 有 写 将 立即 可 见 ， 保 证 所 有 读 获得 最 后 一 次 写 和 人 的 值 。 这 样 ， 编 译 器 通过 volatile 获知 内 存 
同步 在 一 个 包含 段 的 程序 的 Java 版 本 中 ( 其 中 期 望 done 被 男 外 一 个 线程 设置 ): 


while (!done) {.../*do something but don’t change done*/} 


当 声明 变量 done 时 ， 将 它 标记 为 volLatile 类 型 ， 然 后 可 以 忽略 程序 其 他 部 分 与 这 个 
变量 相关 的 内 存 同 步 问 题 。 


volatile boolean done = false; 


KX volatile 关键 字 仅 能 用 于 引用 一 个 数组 元 素 ， 而 不 能 用 于 引用 整个 数组 ， 所 以 
Java 2 1.5 中 引入 的 java.util.concurrent .atomic 包 中 添加 了 原子 数组 的 概念 ， 人 多 
许 通 过 volatile 语义 访问 数组 的 每 一 个 元 素 。 例 如 ， 在 图 6-2 所 示 的 OpenMP 示例 的 一 个 版 本 
中 ,将 flag 数组 声明 为 AtomicIntegerArray 类 型 ， 并 利用 该 类 的 set 与 get 方法 更 新 
SRE MIE. 

用 于 确保 适当 的 内 存 同 步 的 另 一 种 方法 是 同步 块 ， 如 下 所 示 : 


synchronized(some_object){/*do something with shared variabless/) 


6.3.3 节 和 附录 C 将 更 详细 地 描述 同步 块 。 现 在 只 需 理 解 some object 与 锁 隐 式 相 关 
联 ， 编 译 器 产生 的 代码 用 于 在 执行 同步 块 之 前 获取 这 个 锁 ，, 并 在 退出 同步 块 时 释放 该 锁 。 这 
意味 着 通过 确保 对 变量 的 所 有 访问 发 生 在 与 相同 对 象 相 关联 的 同步 块 中 ， 即 可 保证 对 该 变量 
的 访问 同步 。 

MPI: 围 栅 。 围 栅 仅 存在 于 共享 内 存 的 环境 中 。 在 MPI 2.0 之 前 的 MPI 规范 中 ， 不 向 程 
序 员 公 开 共 享 内 存 ， 因 此 不 需要 用 户 可 调用 的 围 栅 。 但 由 于 MPI 2.0 包含 单 边 通信 构造 ， 即 
可 以 创建 对 MPI 程序 中 其 他 进程 可 见 的 内 存 “ 窗 口 ”， 因 此 数据 可 以 被 单个 进程 写 人 或 读 出 ， 
而 不 用 显 式 地 与 拥有 这 个 内 存 区 域 的 进程 协作 。 这 些 内 存 窗 口 需要 某 种 类 型 的 围 栅 ， 由 于 在 
编写 本 书 时 还 无 法 获得 MPI 2.0 的 实现 ， 这 里 不 进行 讨论 。 


6.3.2 栅栏 


栅栏 (barrier) 是 一 个 同步 点 ，UE 集合 中 的 每 个 成 员 必 须 都 到 达 该 点 后 才能 继续 执行 。 
如 果 某 个 UE 先 到 达 ， 则 它 将 等 待 ， 直 到 所 有 其 他 UE 到 达 之 后 才 继 续 执行 。 

栅栏 是 常用 的 高 级 同步 构造 之 一 ， 它 既 适 用 于 面向 进程 的 环境 ( 如 MPI )， 也 适用 于 基于 
线程 的 系统 (如 OpenMP 和 Java )。 

MPI: 栅栏 。 在 MPI 中 通过 调用 如 下 函数 调用 栅栏 : 


O 读 取 一 个 volatile 变量 所 对 应 的 内 存 同 步 与 获取 一 个 与 该 变量 相关 的 锁 所 具有 的 效果 相同 ， 相 反 ， 写 与 释放 


一 个 锁具 有 相同 的 效果 。 


MPI_Barrier(MPI_COMM) 


HB, MPI comm 是 一 个 通信 域 ， 定 义 进程 组 和 通信 上 下 文 。 该 通信 域 进程 组 中 所 有 进 
程 均 参 与 栅栏 。 栅 栏 对 于 程序 员 可 能 是 不 可 见 的 ,但 几乎 始终 利用 消息 对 的 级 联 实 现 的 ， 并 
使 用 归 约 实现 (参考 6.4.2 节 )。 

图 6-3 展示 了 一 个 栅栏 示例 程序 。 该 程序 创建 了 MPI 环境 ， 使 用 MPI 的 时 间 例 程 来 记录 
runit() 函数 的 执行 时 间 (这 里 没有 给 出 该 函数 的 代码 )。 


MPI_Wtime() 227 


#include <mpi.h> // MPI include file 
#include <stdio.h> 


extern void runit(); 


int main(int argc, char **argv) { 
int num_procs; // number of processes in the group 
int ID; // unique identifier ranging from 0 to (num procs-1) 
double time_init, time_final, time_elapsed; . 


// 
// Initialize MPI and set up the SPMD program 
// 

MPI Init(Eargc,kargv); 

MPI Comm, rank(MPI. COMM WORLD, &ID); 

MPI Comm size (MPI. COMM WORLD, &num, procs); 


// 
// Ensure that all processes are set up and ready to go before timing 
// tunit) 
// 
MPI_Barrier(MPI_COMM_WORLD) ; 
time_init = MPI_Wtime(); 


runit(); // a function that we wish to time on each process 


time_final = MPI_Wtime(); 


time_elapsed = time_final - time_init; 


printf(" I am VAd and my computation took \%f seconds\n", 
ID, time_elapsed) ; 


MPI_Finalize(); 
return 0; 


} 





图 6-3 ”调用 一 个 栅栏 的 MPI 程序， 用 于 计时 runit () 函数 的 执行 时 间 


该 函数 返回 一 个 双 精 度 值 ， 保 存 自 上 一 次 调用 该 函数 后 逝去 的 时 间 ( 以 秒 为 单位 )。 即 两 
次 函数 调用 返回 值 的 差 即 为 一 个 函数 的 执行 时 间 ， 也 称 挂 钟 ( wall clock) 时 间 ， 表 示 计 算 机 
外 部 的 一 个 时 钟 所 耗 去 的 时 间 。 

MPI 的 进程 启动 或 初始 化 的 时 间 可 能 相差 很 大 。 为 了 在 所 有 的 进程 中 保持 时 间 的 一 致 性 ， 
需要 保证 所 有 进程 一 起 进入 代码 。 为 了 解决 这 个 问题 ， 需 要 在 代码 的 时 间 函 数 部 分 前 放置 一 
个 栅栏 。 

OpenMP: 栅栏 。 在 OpenMP 中 ， 利 用 一 条 简单 的 命令 设置 栅栏 : 
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#pragma omp barrier 

线程 组 中 的 所 有 线程 参与 这 个 栅栏 。 图 6-4 展示 了 一 个 栅栏 示例 ， 该 程序 实际 上 与 MPI 
程序 相同 。 栅 栏 用 于 确保 在 进行 时 间 测 量 之 前 ， 所 有 线程 已 完成 启动 活动 。 时 间 例 程 omp 
Wtick0 类 似 于 MPI_Wtime(), 并 采用 相同 的 方式 定义 。 | 


#include <omp.h> 
#include <stdio.h> 


extern void runit(); 


int main(int argc, char **argv) { 
double time_init, time_final, time_elapsed; 


#pragma omp parallel private(time_init, time_final, time_elapsed) 
{ 


int ID; 

ID = omp_get_thread_num() ; 
// 
// ensure that all threads are set up and ready to go before timing runit() 
Pd 

#pragma omp barrier 


time init = omp get wtime(); 

runit(); // a function that we wish to time on each thread 

time final = omp get wtime(); 

time. elapsed = time final - time init; 

printf(" I am 4d and my computation took \%f seconds\n", ` 
ID, time elapsed); 


) 


return 0; 





图 6-4 调用 一 个 栅栏 的 OpenMP 程序 ， 用 于 计时 runit (O 函数 的 执行 时 间 


除了 图 6-4 中 所 示 的 显 式 栅栏 外 , OpenMP 自动 地 在 工作 共享 ( worksharing ) 结构 (for, 
single, section 等 ) 的 结尾 处 插入 栅栏 。 但 是 可 以 调用 nowait 子 句 关闭 这 种 隐 式 栅栏 。 

栅栏 隐 含 了 对 flush 的 调用 ， 因 此 OpenMP 栅栏 也 创建 内 存 围 栅 。 这 些 内 存 flush 组 成 了 
UE 在 栅栏 处 等 待 时 所 浪费 的 CPU 周期 ， 因 此 十 分 耗 时 。 栅 栏 在 任何 编程 环境 中 开销 都 非常 
大 ， 只 能 用 于 那些 需要 确保 程序 语义 正确 的 地 方 ， 如 果 没 有 性 能 原因 ， 应 该 仅 用 于 绝对 必需 
的 地 方 。 

Java: 栅栏 。Java 早期 并 不 包含 栅栏 原 语 ， 尽 管 使 用 Java 中 的 工具 可 以 简单 地 创建 栅栏 ， 
就 像 在 公共 域 util.concurrent 包 中 所 做 的 一 样 [Lea]。 在 Java 2 1.5 中 ,java.util. 
concurrent 包 中 提供 了 相似 的 功能 。 

CyclicBarrier 与 前 面 介 绍 的 栅栏 相似 ， 它 包 含 两 个 构造 函数 : 一 个 将 栅栏 处 同 
步 的 线程 的 数目 作为 参数 ， 男 一 个 将 与 Runnable 对 象 相 关联 的 线程 数 作为 参数 ， 其 中 
Runnable WAM run 方法 将 被 最 后 到 达 栅 栏 的 线程 所 执行 。 当 一 个 线程 到 达 栅 栏 时 ， 它 
调用 该 栅栏 的 await 方 法。 如 果 一 个 线程 因为 菜 异 常 而 提前 终止 ， 则 其 他 线程 将 抛 出 
BrokenBarrierException 异常 。 当 通过 栅栏 时 ，CcyclicBarrier 对 象 将 自动 重 置 ， 
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并 可 以 多 次 使 用 ( 例如， 在 一 个 循环 中 )。 
图 6-5 展示 了 上 一 个 栅栏 示例 的 Java 版 本 ,使 用 CyclicBarrier。 


import java.util.concurrent.*; 


public class TimerExample implements Runnable { 
Static int N; 
static CyclicBarrier barrier; 
final int ID; 


public void run() 
1 

//wait at barrier until all threads are ready 
System.out.println(ID * " at await"); 

try{ barrier.await(); ) 

catch (InterruptedException ex) { Thread.dumpStack();) 
catch (BrokenBarrierException ex){Thread.dumpStack() ;} 


//record start time 
long time init = System.currentTimeMillis(); 


//ezecute function to be timed on each thread 
runit(); 


//record ending time 
long time final = System.currentTimeMillis(); 


//print elapsed time 


System.out.println("Elapsed time for thread "+ID+ 
”= "+(time_final-time_init)+" msecs") ; 


void runit(){...} //definition of runit() 
TimerExample(int ID){this.ID = ID;} 


public static void main(String[] args) 
{ N = Integer.parseInt(args[0]); //read number of threads 


barrier = new CyclicBarrier(N); //instantiate barrier 


for(int i = 0; i!- Ni i++) //create and start threads 
{new Thread(new TimerExample(i)).start(); } 


} 
} 





图 6-5 一 个 使 用 CyclicBarrier 的 Java 程序 ， 用 于 计时 runit( 函数 的 执行 时 间 


java.util.concurrent 包 也 提供 了 一 个 同步 原 语 CountDownLatch。CountDownLatch 
被 初始 化 为 某 个 值 N。 每 一 次 调用 countDown 方法 将 该 值 减 1， 之 后 线程 将 调用 await 方法 ， 
直到 该 值 为 0。countDown (可 比喻 为 “到 达 栅 栏 ” ) 5 await (等 待 其 他 的 线程 ) 相 分 离 比 
“线程 等 竺 所 有 其 他 线程 到 达 一 个 栅栏 ”应 用 更 广泛 。 例 如 ， 单 个 线程 可 以 等 待 W 个 事件 发 生 ， 
或 者 入 个 线程 可 以 等 待 单个 事件 发 生 。CountDownLatch 只 能 使 用 一 次 ， 不 能 重 置 。 附 录 C 
展示 一 个 使 用 CountDownLatch 的 例子 。 


6.3.3 BF 


当 共享 内 存 或 其 他 系统 资源 〈 如 文件 系统 ) 时 ， 程 序 必 须 确保 多 个 UE 互 不 干扰 。 例 如 ， 
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若 两 个 线程 准备 在 同一 时 间 更 新 一 个 共享 数据 结构 ， 则 竞 态 条 件 的 可 能 导致 该 结构 产生 不 一 
致 的 状态 。 临 界 区 是 一 个 可 能 与 其 他 UE 执行 的 语句 序列 相 冲突 的 语句 序列 。 若 两 个 语句 块 
访问 同一 个 数据 ， 且 至 少 一 条 语句 序列 修改 了 数据 ， 则 这 两 个 语句 序列 会 产生 冲突 。 为 了 保 
护 临 界 区 中 的 资源 ， 程 序 员 必须 使 用 一 种 称 为 互 斥 (mutual exclusion ) 的 机 制 以 确保 每 一 时 
刻 仅 有 一 个 线程 将 执行 临界 区 中 的 代码 。 

当 使 用 互 斥 时 ， 很 可 能 一 个 线程 继续 执行 ， 而 一 个 或 多 个 线程 被 阻塞 ， 等 待 进入 临界 区 。 
在 并 行程 序 中 ， 这 将 严重 影响 执行 效率 。 因 此 使 用 互 斥 构造 时 必须 非常 谨慎 ， 应 该 尽量 最 小 
化 互 斥 所 保护 的 代码 量 ， 并 尽 可 能 让 线程 组 中 的 成 员 交错 到 达 互 斥 构造 ， 这 将 减少 等 待 线程 
的 数量 。5.8 节 介绍 了 互 斥 应 当 保 护 的 对 象 。 这 里 主要 介绍 用 于 保护 临界 区 的 实现 机 制 。 

OpenMP : Ho Æ OpenMP 中 ， 可 以 利用 临界 区 构造 简单 地 实现 互 斥 ， 图 6-6 中 给 出 
OpenMP 中 使 用 临界 区 构造 的 一 个 示例 。 


#include <omp.h> 
#include <stdio.h> 
#define N 1000 


extern double big_computation(int, int); 
extern void consume_results(int, double, double *); 


int main() { 
double global_result [N] ; 


#pragma omp parallel shared (global_result) 
{ 


double local_result; 
int I; 
int ID = omp_get_thread_num(); // set a thread ID 


#pragma omp for 

for (i=0;1<N;it++){ 
local_result = big_computation(ID, i); // carry out the UE’s work 
#pragma omp critical 


consume_results(ID, local_result, global_result) ; 





图 6-6 一 个 包含 临界 区 的 OpenMP 程序 


图 6-6 所 示 程 序 创建 一 个 线程 组 ， 它 们 协作 实现 对 big computation) 进行 的 入 个 调 
用 。 下 面 的 指令 是 一 个 OpenMP 构造 ， 它 告诉 编译 器 将 循环 分 配 到 线程 组 中 : 

#pragma omp for 

在 big_computation(0 执行 完毕 后 ， 结 果 需 要 组 合 到 全 局 数据 结构 中 ， 以 保存 结果 。 

虽然 这 里 没有 给 出 代码 ， 假 设 consume results 的 更 新 能 够 以 任意 顺序 进行 ， 但 
执行 过 程 必须 是 交 苦 的 ， 即 一 个 线程 更 新 完 后 男 一 个 线程 才能 更 新 。critical 指令 提供 这 
一 功能 。 第 一 个 完成 big_computation0 的 线程 进入 封装 的 代码 块 ， 并 调用 consume | 
results()。 如 果 一 个 线程 到 达 临 界 区 ， 而 男 外 一 个 线程 正在 临界 区 内 ， 则 它 将 等 待 ， 直 到 
临界 区 内 的 线程 完成 。 
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临界 区 是 一 种 高 成 本 的 同步 操作 。 在 临界 区 入 口 ， 一 个 线程 刷新 所 有 可 见 变量 ， 以 确保 
在 临界 区 中 看 到 一 致 的 内 存 内 容 。 在 临界 区 的 末尾 ， 为 使 临界 区 中 的 任何 内 存 更 新 对 于 线程 
组 中 的 其 他 线程 可 见 ， 需 要 对 线程 所 有 可 见 变 量 进 行 第 二 次 刷新 。 

临界 区 构造 不 仅 开销 大 ， 而 且 并 不 通用 。 它 不 能 用 于 一 个 线程 组 中 的 线程 子 集 ， 也 不 适 
用 于 不 同 代码 块 间 的 互 斥 。 为 此 ,OpenMP API 为 互 斥 提供 了 一 种 级 别 较 低 并 且 更 灵活 的 构造 ， 
称 为 锁 。 

不 同 共享 内 存 的 API 中 的 锁 基 本 相似 。 程 序 员 声明 一 个 锁 并 对 其 初始 化 。 一 次 仅 允 许 有 
一 个 线程 拥有 这 个 锁 ， 其 他 试图 获取 锁 的 线程 将 被 阻塞 。 阻 塞 以 等 待 一 个 锁 并 不 高 效 ， 因 此 
”许多 锁 API 允许 线程 仅仅 测试 一 个 锁 的 可 用 性 而 不 是 获取 它 。 这 样 ， 一 个 线程 可 以 执行 其 他 
指令 ， 然 后 再 尝试 获取 锁 。 

图 6-7 展示 了 一 个 使 用 OpenMP 锁 的 示例 ， 确 保 一 次 只 有 一 个 线程 写 人 标准 输出 。 


#include <omp.h> 
#include <stdio.h> 


int main() { 
omp_lock_t lock; // declare the lock using the lock 
// type defined in omp.h 


omp_set_num_threads(5) ; 
omp init lock (&lock); // initialize the lock 


#pragma omp parallel shared (lock) 
{ 


int id = omp_get_thread_num() ; 

omp_set_lock (lock); 

printf("\n only thread %d can do this print\n",id); 
omp unset lock (&lock); 





图 6-7 在 OpenMP 中 使 用 锁 的 示例 


该 程序 声明 锁 lock 为 omp lock t 类 型 并 对 其 初始 化 ， 这 是 一 个 不 透明 的 对 象 ， 因 此 
程序 员 需 要 通过 OpenMP API 运行 时 库 以 安全 地 利用 锁 对 象 ， 不 用 考虑 锁 类 型 的 细节 。 然 后 
调用 omp init lock 初始 化 锁 。 

为 了 实现 并 发 性 管理 ， 锁 必须 被 线程 组 中 所 有 成 员 共享 。 ， 锁 在 parallel 指令 之 前 定 
义 锁 ,并且 声明 为 一 个 共享 变量 ( OpenMP a 但 这 里 显 式 调用 shared FAJ 
以 示 强 调 )。 在 并 行 区 域 的 内 部 ， 一 个 线程 可 以 设置 锁 ， 之 后 其 他 尝试 设 置 相同 锁 的 线程 被 阻塞 
并 等 待 ， 直 到 该 锁 被 释放 。 

5j OpenMP 临界 区 不 同 ，OpenMP 锁 没 有 内 置 内 存 围 栅 。 如 果 获 得 锁 的 线程 执行 的 操作 
依赖 其 他 线 中 程 的 任何 值 ， 则 可 能 会 由 于 内 存 不 一 致 而 导致 程序 出 错 。 管 理 内 存 一 致 性 对 于 
许多 程序 员 来 说 是 非常 困难 的 ， 因 此 大 多 数 OpenMP 程序 员 更 多 地 使 用 更 安全 的 临界 区 而 避 
免 使 用 锁 。 

Java: Rf. Java 语言 利用 同步 块 构造 实现 互 斥 ,在 Java 2 1.5 中 ， 则 利用 java.util. 
concurrent.lock 包 中 新 的 锁 类 。 在 Java 程序 中 ， 每 个 对 象 隐 式 地 包含 它 自己 的 锁 
an ARAS. e E e 
步 块 体 时 ， 无 论 是 正常 还 是 非 正 常 退出 〈 非 正常 时 将 抛 出 一 个 异常 )， 都 会 释放 锁 。 
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图 6-8 展示 了 前 面 示 例 的 Java AS. £X FETA ik Worker RPM run 方法。 注意 ， 
因为 N 为 final 类 型 (不 可 变 )， 所 以 它 可 以 安全 地 被 任何 线程 访问 ， 而 不 需要 任何 同步 。 


public class Example { 
static final int N = 10; 
static double[] global result = new double[N]; 


public static void main(String[] args) throws InterruptedException 
{ 
//create and start N threads 
Thread[] t = new Thread[N]; 
for (int i= 0; i t= N; i++) 
{t[i] = new Thread(new Worker(i)); t[i].start(); ) 


//wait for all N threads to finish 
for (int i = 0; i != Ni i++){t[i].join();} 


//print the results 

for (int i = 0; i!=N; i++) 
{System.out.print(global_result[i] + " ");} 

System. out.println("done") ; 


} 


static class Worker implements Runnable 
{ 

double local_result; 

int i; 

int ID; 


Worker(int ID){this.ID = ID;} 


//main work of threads 

public void run() 

{ //perform the main computation 
local_result = big_computation(ID, i); 


//update global variables in synchronized block 
synchronized(this.getClass()) 
(consume results(ID, local result, global result);) 


) 


//define computation 
double big. computation(int ID, int i)[ . . . 


//define result update 
void consume results(int ID, double local result, 
double[] global result)[(. . .) 





图 6-8 图 6-6 中 OpenMP 程序 的 Java 版 本 


为 了 利用 同步 块 实现 互 斥 ， 它 们 必须 与 相同 的 对 象 关联 。 在 本 例 中 ，run 方法 中 的 同步 
块 使 用 this .getclass( 作为 参数 。 该 表达 式 返 回 一 个 引用 ， 指 向 一 个 表示 Worker 类 的 
运 时 对 象 。 这 是 一 种 确保 调用 者 使 用 相同 对 象 的 简单 方式 。 可 以 声明 java.lang.Object 
的 一 个 全 局 实例 (或 者 其 他 类 的 一 个 实例 )， 并 用 它 作 为 同步 块 的 参数 。 重 要 的 是 所 有 线程 同 
步 于 同一 个 对 象 。 使 用 this 存在 一 个 潜在 的 错误 ， 它 不 强制 互 斥 ， 因 为 每 个 worker 线程 将 
同步 于 它 目 己 一 一 这 样 将 锁定 一 个 不 同 的 锁 。 

这 在 Java 多 线程 程序 中 是 一 个 常见 的 误解 和 错误 源 ， 所 以 需要 再 次 强调 ， 同 步 锁 仅 阻 止 
临界 区 被 其 他 线程 访问 ， 并 且 其 冲突 语句 被 封装 在 一 个 利用 相同 对 象 作为 参数 的 同步 块 中 。 
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与 不 同 对 象 关 联 的 同步 块 不 互 斥 (也 不 保证 内 存 同 步 )。 而 且 方 法 中 的 一 个 同步 块 的 出 现 不 会 
约束 非 同步 块 中 的 代码 。 因 此 ， 忘 记 需 要 的 同步 块 或 弄 错 同步 块 的 参数 后 果 非 常 严 重 。 

图 6-8 中 的 代码 构造 方式 与 OpenMP 示例 类 似 。 在 Java 程序 中 ， 更 常用 的 方式 是 将 共享 
数据 结构 封装 在 类 中 ， 仅 通过 同步 方法 访问 它 。 同 步 方法 是 一 个 包含 完整 方法 的 同步 块 的 特 
例 。 普 通 方法 隐 式 地 同步 于 this， 和 静态 方法 隐 式 地 同步 于 该 类 的 对 象 。 这 种 方法 将 同步 从 
线程 对 共享 数据 结构 访问 转移 到 数据 结构 本 身 。 通 常 这 是 一 种 较 好 的 方法 ， 图 6-9 使 用 这 种 
方法 改写 了 前 面 的 示例 。 现 在 ，global result 变量 被 封装 在 Example2 类 中 ， 并 被 标识 
为 私有 类 型 (Worker 类 不 能 为 租 套 类 ) worker 访问 global-result 数组 的 唯一 方式 是 
调用 consume_results 方法， 即 Example2 类 中 的 一 个 同步 方法 。 因 此 ， 同 步 的 责任 已 
从 定义 辅助 线程 的 类 转移 到 拥有 global result 数组 的 类 。 


public class Example2 { 
static final int N = 10; 
private static double[] global result = new double [N]; 


public static void main(String[] args) throws InterruptedException 
( //create and start N threads 
Thread[] t = new Thread [N]; 
for (int i = 0; i != N; i++) 
{t [i] = new Thread(new Worker(i)); t{i].start(); } 


//wait for all threads to terminate 
for (int i = 0; i != N; i**)(t[il.joinO;) 


//print results 

for (int i = 0; i!=N; i++) 
{System.out.print(global_result[i] + " ");) 

System.out.println("done"); 


) 


//synchronized method serializing consume results method 
synchronized static void consume results(int ID, double local, result) 
{ global result[ID] =... } 


class Worker implements Runnable 
{ 
double local_result; 
int 1; 
int ID; 
Worker(int ID){this.ID = ID;} 
public void run() 
{ //perform the main computation 
local_result = big_computation(ID, i); //carry out the UE’s work 
//invoke method to update results 


Example2.consume, results(ID, local result); 


//define computation 
double big computation(int ID, int i)( . . . 





图 6-9 利用 同步 方法 实现 互 斥 的 Java 程序 
Java 中 的 同步 锁 构 造 存 在 某 些 缺 陷 。 对 于 并 行程 序 而 言 ， 在 尝试 获取 锁 之 前 ， 没 有 判断 该 
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获取 和 释放 。 这 将 使 一 些 编程 风格 不 被 支持 ， 如 在 一 个 块 中 获取 锁 而 在 另 一 个 块 中 释放 该 锁 。 

由 于 这 些 缺 陷 ， 许 多 程序 员 已 经 创建 了 自己 的 锁 类 ， 以 取代 Java 内 置 的 同步 块 。 例 如 ， 
请 参考 [Lea]。 对 应 于 这 种 情形 ，Java 2 1.5 中 的 java.util.concurrent .1Locks 包 提 供 
了 几 种 锁 类 以 替代 同步 块 。 详 细 内 容 请 见 附录 Co 

MPI: 互 斥 。 与 大 多 数 同步 构造 一 样 ， 仅 当 语句 在 共享 上 下 文中 执行 时 才 需 要 互 斥 。 因 
此 ， 对 于 类 似 MPI 这 种 不 共享 任何 数据 的 API， 其 标准 中 不 支持 临界 区 。 考 虑 图 6-6 中 的 
OpenMP 程序 。 若 要 在 MPI 中 实现 类 似 方法 ， 即 每 次 只 允许 一 个 UE 更 新 数据 结构 ， 则 — 典 
型 的 方法 是 指定 一 个 进程 完成 这 种 更 新 ， 而 其 他 进程 将 需要 把 更 新 的 数据 发 送 给 该 进程 。 图 
6-10 中 展示 了 这 种 方法 。 


#include <mpi.h> // MPI include file 

#include <stdio.h> 

#define N 1000 

extern void consume_results(int, double, double * ); 
extern double big_computation(int, int); 


int main(int argc, char **argv) { 
int Tagl = 1; int Tag2 = 2; // message tags 
int num_procs; // number of processes in group 
int ID; // unique identifier from 0 to (num procs-1) 
double local, result, global result[N]; 
int i, ID CRIT; 
MPI Status stat; // MPI status parameter 


// Initialize MPI and set up the SPMD program 
MPI Init(&argc,&argv); 
MPI Comm, rank(MPI, COMM WORLD, &ID) ; 
MPI Comm size (MPI, COMM WORLD, &num procs); 


// Need at least two processes for this method to work 
if(num procs < 2) MPI Abort(MPI COMM WORLD, -1); 


// Dedicate the last process to managing update of final result 
ID_CRIT = num, procs-1; 
if (ID == ID_CRIT) { 
int ID sender; // variable to hold ID of sender 
for(i=0;i<N;it++){ 
MPI_Recv(&local_result, 1, MPI DOUBLE, MPI_ANY_SOURCE, 
MPI_ANY_TAG, MPI_COMM_WORLD, &stat); 
ID_sender = stat.MPI_SOURCE; 
consume_results(ID_sender, local_result, global_result) ; 
} 
} 
else { 
num, procs--; 
for(i=ID;i<N;it+t=num_procs){ // cyclic distribution of loop iterations 
local result = big computation(ID, i); // carry out UE's work 


// Send local result using a synchronous Send - a send that doesn't 
// return until a matching receive has been posted. 
MPI Ssend (&£local result, 1, MPI DOUBLE, ID CRIT, ID, 
MPI. COMM. WORLD) ; 
} 

} 

MPI_Finalize(); 

return 0; 





6-10 ”具有 需要 互 斥 的 更 新 操作 的 MPI 程序 示例 ， 一 个 进程 用 于 更 新 该 数据 结构 


I 


该 程序 使 用 了 SPMD 模式 。 类 似 图 6-6 中 的 OpenMP 程序 ， 它 利用 一 个 循环 实现 big_ 
computation() 的 N 次 调用 ， 把 调用 的 结果 放置 到 一 个 全 局 数据 结构 中 ， 一 次 仅 有 一 个 
UE 中 的 结果 被 应 用 。 

选择 具有 最 大 编号 的 UE 管理 临界 区 ， 然 后 该 进程 执行 一 个 循环 ， 并 执行 N 次 接收 。 通 
过 使 用 MPI Recv() 语 句 中 的 MPI ANY SOURCE 和 MPI_ANY TAG HY fA, 4H A big_ 
computation) 调用 的 结果 的 消息 以 任意 顺序 被 接收 。 如 果 需 要 标记 或 ID， 可 以 从 MPI_ 
Recv() 返回 的 状态 变量 中 恢复 它们 。 

其 他 的 UE 实现 对 big computation0 的 N 次 调用 。 因 为 一 个 UE 已 经 用 于 管理 临界 
区 ， 所 以 计算 中 的 有 效 进程 数目 减 1。 我 们 使 用 一 种 循环 迭代 的 周期 分 配 法 ， 像 5.4 节 的 示例 中 
所 描述 的 一 样 。 它 以 一 种 轮 循 方式 分 配 循 环 的 迭代 。 一 个 UE 完成 它 的 计算 后 ， 把 结果 发 送 
给 管理 临界 区 的 进程 ”。 


6.4 通信 


UE 执行 并 行 算法 时 通常 需要 交换 信息 。 共 享 内 存 环境 默认 提供 了 这 种 功能 ， 但 在 这 些 
系统 中 所 面临 的 挑战 是 同步 对 共享 内 存 的 访问 ， 以 保证 无 论 UE 的 执行 速度 和 顺序 如 何 变化 ， 
结果 都 是 正确 的 。 在 分 布 式 内 存 系统 中 ， 因 为 共享 资源 很 少 ， 所 以 保护 这 些 资源 的 显 式 同步 
需求 相应 较 少 。 而 通信 成 为 程序 员 所 要 面临 的 主要 问题 。 


6.4.1 消息 传递 


消息 是 最 基本 的 通信 元 素 ， 由 一 个 包含 消息 标识 〈 例 如 ， 源 、 目 的 地 和 一 个 标记 ) 的 头 和 
一 系列 二 进 制 位 组 成 。 消 息 传递 通常 是 双边 的 ， 即 一 个 消息 显 式 地 在 一 对 UE 之 间 发 送 ， 从 某 
个 源 到 某 个 目的 地 。 除 了 直接 消息 传递 外 ， 还 有 一 些 通信 事件 ， 它 们 在 单个 通信 事件 中 包含 多 
个 UE (通常 是 所 有 的 UE )， 被 称 为 集合 通信 (collective communication )。 这 些 集合 通信 事件 通常 


也 包括 计算 , 例如， 计算 全 局 和 ， 即 对 分 布 在 系统 中 的 一 个 值 集 求 和 ， 并 放置 在 每 一 个 节点 上 。 . 


下 面 几 节 将 更 详细 地 介绍 通信 和 机制。 首先 介绍 MPI. OpenMP 和 Java 中 的 基本 消息 传递 。 
然后 介绍 集合 通信 ， 主 要 讲解 MPI 和 OpenMP 中 的 归 约 操作 。 最 后 简单 地 介绍 在 并 行程 序 中 
管理 通信 的 其 他 几 种 方法 。 | 

MPI: 消息 传递 。 一 对 UE 间 的 消息 传递 是 最 基本 的 通信 和 操作。 消息 由 一 个 UE RK, 5 
一 个 UE 接收 。 在 最 常规 的 通信 中 ， 发 送 和 接收 操作 是 成 对 的 。 

图 6-11 和 图 6-12 中 的 MPI 程 序 中 ， 一 个 处 理 器 环 重复 地 计算 一 个 字段 (程序 中 的 
field ) 内 的 元 素 。 为 简单 起 见 ， 我 们 假设 更 新 操作 中 的 依赖 性 为 每 一 个 UE 仅 需 要 它 左 边 邻 
居 的 信息 进行 更 新 。 


O 利用 同步 发 送 (MPI_Ssend0 )， 从 而 尽 可 能 模拟 共享 内 存 的 互 斥 行为 ， 同 步 发 送 需要 等 待 匹配 的 MPI 接 
收 后 才 返 回 。 但 是 在 分 布 式 内 存 环境 中 ， 由 于 额外 的 开销 ， 一 般 不 需要 让 发 送 进程 等 待 。 通 常 MPI 程序 


员 会 尽量 降低 并 行 开销 ， 仅 在 必要 的 时 候 才 使 用 同步 消息 传递 。 在 本 例 中 ， 标 准 模式 消息 传递 函数 MPI_ 


Send() 和 MPI_Recv( 是 更 好 的 选择 ， 除 非 通信 的 外 部 条 件 要求 两 个 进程 满足 某 种 顺序 约束 ， 因 此 强制 它 
们 相互 同步 ; 或 者 通信 缓冲 区 或 者 其 他 系统 资源 限制 了 接收 消息 的 能 力 ， 从 而 强制 发 送 端 进程 等 待 ， 直 到 
接收 端 准备 好 。 
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#include <stdio.h> 
#include "mpi.h" // MPI include file 
#define IS_ODD(x) ((x)%2) // test for an odd int 


// prototypes for functions to initialize the problem, extract 
// the boundary region to share, and perform the field update. 
// The contents of these functions are not provided. 


extern void init (int, int, double *, double * , double *); 
extern void extract_boundary (int, int, int, int, double *); 
extern void update (int, int, int, int, double *, double *); 
extern void output_results (int, double *); 


int main(int argc, char **argv) { 
int Tagi = 1; // message tag 
int nprocs; // the number of processes in the group 
int ID; // the process rank 
int Nsize; // Problem size (order of field matriz) 
int Bsize; // Number of doubles in the boundary 
int Nsteps; // Number of iterations 
double *field, *boundary, *incoming; 


int i, left, right; 

MPI_Status stat; // MPI status parameter 
AN 
// Initialize MPI and set up the SPMD program 
AN 

MPI Init(&kargc,&argv); 

MPI Comm rank(MPI COMM WORLD, &ID); 

MPI Comm size(MPI, COMM WORLD, &nprocs); 


init (Nsize, Bsize, field, boundary, incoming); 


/* continued in next figure */ 


图 6-11 该 MPI 程序 使 用 一 个 处 理 器 环 和 一 种 通信 和 模式， 将 信息 右 移 。 
计算 功能 不 影响 通信 本 身 ， 故 未 显示 ( 续 见 图 6-12 ) 


/* continued from previous figure */ 


// assume a ring of processors and a communication pattern 
// where boundaries are shifted to the right. 


left = (ID+1); if(left>(mprocs-1)) left = 0; 
right = (ID-1); if(right«O)right = nprocs-1; 


for(i = 0; i < Nsteps; i++){ 


extract boundary(Nsize, Bsize, ID, nprocs, boundary); 
if (IS ODDCID))O( 
MPI Send (boundary, Bsize, MPI_DOUBLE, right, Tagi, 
MPI COMM. WORLD) ; 
MPI Recv (incoming, Bsize, MPI, DOUBLE, left, Tagi, 
MPI COMM, WORLD, &stat); 
} 
else { 
MPI Recv (incoming, Bsize, MPI DOUBLE, left, Tagi, 
MPI.COMM WORLD, &stat); 
MPI Send (boundary, Bsize, MPI DOUBLE, right, Tagi, 
MPI, COMM. WORLD) ; 
h 


update(Nsize, Bsize, ID, nprocs, field, incoming); 


output results(Nsize, field); 
MPI Finalize(); 
return 0; 


图 6-12 该 MPI EFE EFEI—- AEZESEMVNI— ROBES, RMA AE. 
计算 功能 不 影响 通信 本 身 ， 故 未 显示 〈 续 图 6-11) 
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图 6-11 和 图 6-12 中 只 显示 了 与 通信 相关 的 程序 部 分 ， 实 际 更 新 操作 字段 、 初 始 化 字段 ， 
以 及 字段 和 边界 数据 的 结构 均 被 忽略 。 

图 6-11 和 图 6-12 的 程序 首先 声明 变量 ， 然 后 初始 化 MPI 环境 。 在 这 种 SPMD 模式 中 ， 
并 行 算法 中 由 进程 排序 ID 和 组 中 的 进程 数目 所 驱动 。 

初始 化 field 后 ， 通 过 计算 left Mright 变量 (确定 哪些 进程 分 别 位 于 左 侧 和 右 侧 ), 
来 确立 通信 模式 。 在 本 例 中 ， 计 算 非 常 简 单 ， 实 现 了 一 个 通信 环 模式 。 在 更 复杂 的 程序 中 ， 
这 些 索引 计算 可 能 比较 复杂 、 难 以 理解 和 易 错 。 

程序 的 核心 循环 执行 大 量 步 又 。 每 一 步 都 收集 边界 数据 ， 并 通过 一 个 环 连接 与 邻居 通信 ， 
然后 更 新 本 地 字段 块 。 

注意 ， 必 须 在 奇数 和 偶数 进程 间 显 式 交 换 通信 ， 以 确保 匹配 的 通信 事件 在 两 个 程序 上 连 
贯 地 排序 。 这 很 重要 ， 因 为 在 缓冲 空间 有 限 的 系统 上 ， 直 到 相关 的 接收 发 送 之 后 ， 才 能 返回 

OpenMP : 消息 传递 。 在 OpenMP 中 ,消息 传递 是 一 种 高 效 策略 。OpenMP 中 消息 传递 
的 一 种 方式 是 模仿 一 个 MPI 算 法 ,例如 ， 当 把 一 个 MPI 程序 移植 到 仅 支 持 OpenMP 的 系统 中 
时 。 男 一 种 情形 是 使 用 NUMA 机 器 时 ， 其 数据 的 局 部 性 是 非常 重要 的 。 通 过 使 用 SPMD 模 
式 和 消息 传递 ， 程 序 员 能 够 更 精确 地 控制 程序 的 数据 与 系统 的 内 存 层次 的 结合 方式 ， 从 而 提 
高 性 能 。 

图 6-13 和 图 6-14 中 展示 了 在 OpenMP 中 使 用 消息 传递 的 一 种 简单 方式 ， 程 序 基本 上 与 
图 6-11 和 图 6-12 中 的 MPI 程序 相同 。 与 前 面 一 样 ， 程 序 中 隐藏 了 与 并 行 算法 无 关 的 细节 。 


#include <stdio.h> 

#include <omp.h> // OpenMP include file 

#define MAX 10 // maximum number of threads 

// 

// prototypes for functions to initialize the problem, 

// extract the boundary region to share, and perform the 

// field update. Note: the initialize routine is different 
// here in that it sets up a large shared array (that is, for 
// the full problem), not just a local block. 

// 

extern void init (int, int, double *, double * , double *); 
extern void extract_boundary (int, int, double *, double *); 
extern void update (int, int, double *, double *); 

extern void output_results (int, double *); 


int main(int argc, char **argv) { 
int Nsize; // Problem size (order of field matriz) 
int Bsize; // Number of doubles in the boundary 
double *field; 
double *boundary[MAX]; // array of pointers to a buffer to hold 
// boundary data 


// 
// Create Team of Threads 


init (Nsize, Bsize, field, boundary, incoming); 
/* continued in next figure */ 





图 6-13 ”该 OpenMP 程序 使 用 了 一 个 线程 环 和 一 种 通信 模式 ， 
该 通信 模式 使 信息 右 移 ( 续 见 图 6-14 ) 
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/* continued from previous figure */ 


#pragma omp parallel shared(boundary, field, Bsize, Nsize) 


// 

// Set up the SPMD program. Note: by declaring ID and Num threads 
// inside the parallel region, we make them private to each thread. 
// 


int ID, nprocs, i, left; 


ID = omp get thread num(); 
nprocs - omp get num, threads(); 


if (nprocs > MAX) { 
exit (-1); 
} 
tif 
// assume a ring of processors and a communication pattern 
// where boundaries are shifted to the right. 
ee 
left = (ID-1); if(left<0) left = nprocs-1; 
for(i = 0; i < Nsteps; i++){ | 
#pragma omp barrier 
extract boundary(Nsize, Bsize, ID, nprocs, boundary[ID]); 
#pragma omp barrier 


update(Nsize, Bsize, ID, nprocs, field, boundary [left]); 


output_results(Nsize, field); 
return 0; 


} 





图 6-14 该 OpenMP 程序 使 用 了 一 个 线程 环 和 一 种 通信 模式 ， 
该 通信 模式 使 信息 右 移 ( 续 图 6-13 ) 


TE OpenMP 中 ， 通 过 从 共享 数据 结构 中 读 取 数据 来 完成 消息 传递 。 在 MPI 中 ， 消 息 传递 
国 数 隐 式 地 保证 同步 ， 但 OpenMP 中 的 同步 是 显 式 的 。 第 一 个 barriez 确保 所 有 的 线程 位 
于 同一 个 点 ( 即 准备 填充 将 共享 的 boundary )。 第 二 个 parrier 确保 在 接收 端 使 用 数据 之 
前 ， 所 有 的 线程 已 经 完成 了 对 它们 的 boundary 的 填充 。 

如 果 每 一 个 线程 中 包含 的 工作 量 相 近 ， 则 这 种 策略 非常 高 效 。 而 当 某 些 线程 比 其 他 的 线 
程 运行 快 ( 由 于 人 硬件 负载 较 小 或 者 数据 非 均 匀 分 布 ) 时 ， 栅 栏 将 导致 较 高 的 并 行 开销 ， 这 是 
因为 某 些 线程 需要 在 栅栏 处 等 待 其 他 较 慢 线程 。 可 以 通过 精细 地 调节 问题 的 同步 需求 ， 例 如 
使 用 对 同步 ， 来 缓解 这 一 瓶颈 。 

图 6-15 中 的 “消息 传递 ”OpenMP 程序 展示 了 OpenMP 中 引入 对 同步 的 一 种 方式 ， 其 代 
码 比 图 6-13 和 图 6-14 中 的 程序 更 复杂 。 基 本 思想 是 添加 一 个 称 为 done 的 数组 ， 线 程 使 用 它 
来 表明 其 缓冲 区 (BEI boundary 数据 ) 是 否 已 经 准备 好 并 可 使 用 。 一 个 线程 填充 它 的 缓冲 区 ， 
设置 它 的 标记 (flag )， 然 后 更 新 它 的 变量 ， 以 确保 其 他 线程 能 够 看 到 更 新 后 的 值 。 然 后 该 线 
程 检 查 它 的 邻居 的 标记 ， 并 等 待 〈 使 用 一 个 所 谓 的 旋转 锁 (spin lock ) )， 直 到 邻居 的 缓冲 区 准 
备 好 接收 数据 为 止 。 


ee 


int done[MAX]; // an array of flags dimensioned for the 
// boundary data 
// 
// Create Team of Threads 
AN 


init (Nsize, Bsize, field, boundary, incoming) ; 
#pragma omp parallel shared(boundary, field, Bsize, Nsize) 


A 

// Set up the SPMD program. Note: by declaring ID and Num_threads 
// inside the parallel region, we make them private to each thread. 
// 


int ID, nprocs, i, left; 


ID = omp_get_thread_num() ; 
nprocs = omp get num threads(); 
if (nprocs > MAX) { exit (-1); } 


// 
// assume a ring of processors and a communication pattern 
// uhere boundaries are shifted to the right. 


H 
left = (ID-1); if(left<0) left = nprocs-1; 


done[ID] = 0; // set flag stating "buffer ready to fill" 
for(i = 0; i < Nsteps; i++){ 


#pragma omp barrier // all visible variables flushed, so we 
// don’t need to flush "done". 
extract boundary(Nsize, Bsize, ID, num_procs, boundary [ID]); 
done [ID] = 1; // flag that the buffer is ready to use 
#pragma omp flush (done) 
while (done[left] != 1){ 
#pragma omp flush (done) 
} 
update(Nsize, Bsize, ID, num_procs, field, boundary[left]); 
done[left] = 0; // set flag stating "buffer ready to fill" 


} 
output_results(Nsize, field); 





图 6-15 算法 同 图 6-13 和 图 6-14， 但 具有 更 细致 的 同步 管理 ( 对 同步 ) 


这 段 代 码 更 加 复杂 ， 但 是 它 在 两 个 方面 更 加 高 效 。 首 先 ， 前 一 代码 中 的 栅栏 使 得 所 有 线 
程 均 等 待 整个 线程 组 。 如 果 任 意 一 个 线程 因 某 种 原因 延迟 ， 则 它 将 延缓 整个 线程 组 ， 特 别 是 
当 线 程 间 的 工作 负载 不 均衡 时 ， 会 导致 较 高 的 性 能 开销 。 其 次 ， 将 两 个 栅栏 替换 为 一 个 栅栏 
和 一 系列 的 flush 操作 ， 虽 然 fush 操作 的 开销 较 高 ， 但 仅 更 新 一 个 小 数组 (done), KAT Xt 
单个 数组 的 多 次 刷新 操作 可 能 比 栅栏 操作 所 隐 含 的 对 所 有 线程 可 见 数据 的 单个 刷新 操 快 得 多 。 

Java: 消息 传递 。Java 语言 没有 消息 传递 的 定义 ( 因为 它 实现 利用 线程 进行 并 行 编 程 的 
工具 )。 可 以 使 用 OpenMP 中 所 讨论 的 类 似 的 消息 传递 技术 。 但 是 ，Java 的 发 布 版 本 的 标准 类 
库 中 提供 了 对 分 布 式 环境 中 各 类 通信 的 支持 。 本 节 不 提供 这 些 技术 的 示例 ， 而 是 简要 介绍 一 
些 工 具 。 

Java 为 异 构 环 境 中 的 客户 端 服务 器 模式 的 分 布 式 计 算 提 供 了 支持 ， 可 以 在 两 个 PE 之 
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间 建 立 一 个 TCP 套 接 字 连 接 ， 并 通过 该 连接 发 送 和 接收 数据 。 相 关 的 类 位 于 java.net 和 
java.io ghp, BALA (人 参考 java.io.Serializable 接口 ) 支持 将 复杂 的 数据 结构 
转换 为 一 个 字 节 序列 ， 该 字 节 序列 可 以 通过 网 络 传 输 (或 写 到 一 个 文件 中 )， 并 在 目的 端 重 新 
构建 。RMI (远程 方法 调用 ) fl java .rmi.* 提供 了 一 种 机 制 ， 使 得 一 个 JVM 上 的 对 象 可 
以 调用 另 一 个 可 能 运行 在 一 台 不 同 的 机 器 上 的 JVM 上 的 对 象 的 方法 。 串 行 化 RMI 包 用 于 配 
置 方 法 的 参数 ， 并 将 结果 返回 给 调用 者 。 

尽管 java.io、java.net 和 java.rmi.* 包 提供 了 便利 的 编程 抽象 并 在 它们 针对 的 
领域 中 工作 良好 ， 但 会 产生 较 高 的 并 行 开 销 ， 因 此 不 适合 高 性 能 计算 。 高 性 能 计算 机 通常 使 
用 计算 机 同 构 网 络 ， 因 此 由 Java 的 TCP/IP 所 支持 的 通用 分 布 式 计算 方法 将 导致 一 些 在 高 性 
能 计算 中 通常 不 需要 的 数据 转换 和 检查 。 男 外 一 种 并 行 开 销 来 自 Java 所 强调 的 可 移植 性 ， 这 
使 得 Java 的 网 络 支持 设计 需要 采用 能 够 适应 不 同 平台 的 工具 。 一 个 主要 的 问题 是 阻塞 VO. 
例如 ， 这 意味 着 套 接 字 上 的 读 操作 将 被 阻塞 ， 直 到 获得 数据 ， 而 高 性 能 计算 通常 通过 创建 一 
个 新 线程 来 执行 读 操作 ， 从 而 避免 应 用 盲 等 。 由 于 读 操 作 一 次 仅 能 应 用 于 一 个 套 接 字 ， 所 以 
为 每 个 通信 方 使 用 独立 的 线程 是 一 种 不 可 伸缩 的 编程 方法 。 

为 了 优化 这 些 影 响 高 性 能 企业 服务 器 的 缺陷 ，Java 2 1.4 的 java.nio 包 中 引入 了 一 些 
新 IO TH., AX Java 规范 已 经 分 成 3 个 独立 的 版 本 (企业 版 、 核 心 版 和 移动 版 )， 所 以 核 
心 版 Java 和 企业 版 Java API 再 也 不 局 限于 仅 支 持 那 些 能 够 被 功能 最 少 的 设备 所 支持 的 特征 。 
Pugh 和 Sacco[PS04] 所 报告 的 结果 表明 ， 一 些 新 工具 能 提供 足够 的 性 能 ， 使 Java 成 为 集群 中 
高 性 能 计算 的 一 个 合理 选择 。 

java.nio 包 提 供 了 非 阻 塞 VO 和 一 些 选择 器 ， 使 得 一 个 线程 能 够 监控 几 个 套 接 字 
连接 。 这 种 机 制 依赖 称 为 通道 (channel) 的 新 抽象 ， 它 作为 套 接 字 、 文 件 和 硬件 设备 等 的 
开放 连接 。Socketchanncl 用 于 TCP 或 UDP 连接 上 的 通信 。 程 序 可 以 用 非 阻 塞 操 作 将 
SocketChannel 中 的 内 容 读 人 到 ByteBuffer 中 ,或 者 将 ByteBuffer 中 的 内 容 写 到 
SocketChannel 中 。 缓 冲 区 是 Java 2 1.4 中 引入 的 另外 一 种 新 抽象 ， 是 一 些 容 需 ， 用 于 存 
放 基 本 类 型 的 线性 无 限 序列 ， 维 护 一 个 包含 当前 位 置 的 状态 ( 以 及 某 些 其 他 信息 )， 并 利用 
put 和 get 操作 访问 ，put 操作 将 一 个 元 素 放置 到 当前 位 置 所 指定 的 位 置 ，get 操作 从 当前 位 置 
获取 一 个 元 素 。 缓 冲 区 可 以 分 配 为 直接 的 或 间接 的 。 直 接 缓冲 区 的 空间 在 JVM 所 管理 的 内 存 
空间 的 外 部 ， 并 受 垃 圾 回收 限制 。 因 此 ， 直 接 缓冲 区 不 会 被 垃圾 回收 器 移动 ， 指 向 直接 缓冲 
区 的 引用 可 以 传递 给 系统 级 的 网 络 软件 ， 这 减少 了 JVM 的 一 个 复制 步骤 。 遗 憾 的 是 ， 它 的 代 
价 是 需要 更 复杂 的 编程 ， 因 为 put 和 get 操作 使 用 起 来 不 是 特别 方便 。 但 是 ， 通 常人 们 将 不 在 
程序 的 主 计算 中 使 用 Buffer， 而 是 将 使 用 一 个 更 便利 的 数据 结构 ， 人 例如， 数组， 能 够 批量 
地 将 数组 中 的 数据 复制 到 缓冲 区 中 ， 或 者 批量 地 从 Buffer 中 将 数据 复制 到 数组 中 。 

许多 并 行程 序 员 期 望 获得 比 Java 中 的 标准 包 所 支持 的 更 高 级 或 者 更 熟悉 的 通信 抽象 。 研 
究 人 员 已 经 使 用 了 各 种 方法 为 Java 实现 了 类 似 于 MPI 的 绑 定 。 一 种 方法 是 使 用 JNI (Java 本 
地 接口 ) 来 绑 定 现 有 的 MPI 库 。 例 如 ，JavaMPI [Min97] 和 mpiJava [BCKL98]。 其 他 方法 
使 用 以 Java 编写 的 新 通信 系统 。 这 些 系统 没有 广泛 使 用 ， 处 于 各 种 可 用 性 状态 。 某 些 系统 
[JCS98] 尝试 为 遵从 [BC00] 中 所 描述 的 标准 的 程序 员 提 供 一 种 类 似 于 MPI 的 体验 ， 而 其 他 


© Pugh 和 Sacco [PS04] 已 经 指出 ,实际 上 发 送 之 前 在 缓冲 区 和 数组 之 间 进 行 批 量 复制 要 比 去 掉 数组 并 使 用 


put 和 get 操作 直接 更 新 缓冲 区 要 快 。 
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系统 试验 一 些 可 选择 的 模型 [Man]。[AMJS02] 中 给 出 了 它们 的 概述 。 这 些 系统 通常 使 用 老 
的 java.io， 因 为 java.nio 包 最 近 才 可 用 。 一 个 例外 是 Pugh 和 Sacco [PS04] 所 报告 的 工 
作 。 尽 管 在 编写 本 书 时 ， 他 们 还 没有 提供 可 下 载 的 软件 ， 但 他 们 描述 了 一 个 包 ， 该 包 提 供 了 
MPI 的 一 个 子 集 ， 该 包 所 具有 的 性 能 度量 为 在 集群 中 进行 高 性 能 计算 且 具 有 java.nio 的 
Java 描绘 了 一 种 乐观 的 前 景 。 可 以 期 望 ， 在 不 久 的 将 来 将 有 更 多 的 包 构 建 在 java.nio 之 
上 ， 人 们 的 并 行 编程 工作 将 更 简单 。 


6.4.2 ”集合 通信 


当 两 个 以 上 的 UE 参与 通信 事件 时 ， 该 事件 称 为 集合 通信 操作 (collective communication 
operation )。 作 为 一 个 消息 传递 库 ，MPI 包含 大 多 数 主要 的 集合 通信 操作 。 
e 广播 。 发送 单条 消息 给 所 有 UE. 
e 栅栏 。 程 序 中 的 同步 点 ， 所 有 UE 都 必须 先 到 达 该 点 ， 然 后 才能 继续 回 后 执行 。 本 草 
前 面 已 经 描述 了 这 一 内 容 ， 但 在 MPI 中 这 一 机 制 是 通过 集合 通信 实现 的 。 

e 归 约 。 获 得 一 个 对 象 集 合 ， 其 中 每 个 对 象 位 于 一 个 UE 上 上。 操作 将 它们 组 合 为 位 于 一 
个 UE 之 上 的 单个 对 象 (MPI _ Reduce )， 或 者 组 合 它们 并 将 最 终结 果 广 播 到 每 个 UE 
上 (MPI_Allreduce ), 

归 约 是 这 几 种 操作 中 最 和 常用 的 ， 在 并 行 算 法 中 占有 重要 地 位 ， 因 此 也 包含 在 大 多 数 并 行 
编程 API 中 (包括 共享 内 存 模型 API， 如 OpenMP )。 本 节 主 要 讨论 归 约 的 通信 模式 和 算法 ， 
这 些 思 路 均 可 用 于 其 他 全 局 通信 操作 中 。 

归 约 。 归 约 通 过 重复 利用 某 种 二 元 运算 符 组 合 数据 集中 的 数据 项 对 ， 最 终 得 到 单个 数据 
值 ， 通 常 这 种 二 元 运算 是 可 结合 和 可 交换 的 ， 包 括 求 和 、 积 或 者 数组 中 元 紊 最 大 值 。 通 常 ， 
能 将 操作 表示 为 如 下 计算 : 

Voo Viote Vmi ( 6-1) 

其 中 ,。 是 一 种 二 元 运算 符 。 实 现 归 约 的 基本 算法 即 从 左 到 右 串 行 地 计算 ， 这 种 方法 并 
没有 潜在 的 并 行 度 。 但 是 ， 如 果 是 可 结合 的 ， 则 式 (6-1) 包含 并 行 度 ， 可 以 并 行 计 算 Vo, 
Vio, Vma 的 一 些 子 集 的 结果 ， 然 后 再 将 它们 组 合 在 一 起 。 如 果 。 也 是 可 交换 的 ， 则 计算 不 
仅 能 够 重组 ， 而 且 能 够 重新 排序 ， 这 为 并 发 执行 提供 了 额外 的 可 行 性 。 

不 是 所 有 的 归 约 操作 符 都 具有 这 两 种 属性 ， 但 是 可 以 考虑 该 运算 符 是 否 能 够 被 当 作 可 结 
合 的 和 或 可 交换 的 ， 并 且 不 会 显著 改变 计算 的 结果 。 例 如 ， 浮 点 加 不 是 严格 可 结合 的 ( 因为 
数值 表示 的 有 限 精 度 会 造成 舍 人 误差 ,特别 是 两 个 操作 数 间 的 量 级 差别 很 大 时 )， 但 是 如 果 相 
加 的 所 有 数据 项 具有 大 致 相等 的 量 级 ， 则 通 第 足够 接近 于 可 结合 的 ， 此 时 可 以 利用 下 面 介 绍 
的 并 行 策略 。 如 果 数 据 项 的 量 级 差别 很 大 ， 则 将 无 法 利用 该 并 行 策略 。 

大 多 数 并 行 编程 模型 都 包括 归 约 操作 。 

e MPI, MPI 提供 了 通用 函数 MPI_ Reduce 和 MPI ALlreduce， 并 支持 几 种 常用 的 

归 约 操作 (MPI MIN, MPI MAX f! MAN SUM), 
e OpenMP, 47% reduction 子 句 ， 可 用 于 并 行 区 域 或 一 个 工作 分 挫 构 造 ， 提 供 了 加 、 
减 、 乘 以 及 大 量 的 位 以 及 逻辑 运算 符 。 
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图 6-16 展示 了 一 个 MPI 程序 ， 它 是 前 一 个 归 约 示例 的 延续 。 图 6-3 中 的 前 一 示例 使 用 栅 
栏 来 强制 一 致 性 的 计时 ， 即 独立 地 为 每 个 UE 计时， 作为 程序 负载 平衡 的 指标 ,通常 将 测量 
出 最 短 时 间 、 最 长 时 间 和 平均 时 间 。 图 6-16 的 程序 通过 MPI Reduce 的 3 次 调用 来 完成 这 
些 任务 ， 即 分 别 调用 MPI MIN, MPI MAX 和 MPI SUM 函数 。 


#include "mpi.h" // MPI include file 
#include <stdio.h> 


int main(int argc, char**argv) { 
int num_procs; // the number of processes in the group 
int ID; // a unique identifier ranging from O to (num procs-1) 
double local_result; 
double time_init, time_final, time_elapsed; 
double min_time, max_time, ave_time; 
AN 
// Initialize MPI and set up the SPMD program 
H 
MPI Init(Eargc,&argv); 
MPI Comm rank(MPI. COMM WORLD, &ID); 
MPI Comm size (MPI.COMM WORLD, &num procs); 


// 
// Ensure that all processes are set up and ready to go before timing 
// runit() 
HA 
MPI Barrier(MPI. COMM, WORLD) ; 


time init = MPI Wtime(); 


runit(); // a function ihat we wish to time on each process 
time final = MPI Wtime(); 
time elapsed - time final - time init; 


MPI Reduce (&£time elapsed, &min time, 1, MPI DOUBLE, MPI MIN, O, 
MPI. COMM. WORLD) ; 
MPI Reduce (ktime elapsed, &max time, 1, MPI DOUBLE, MPI MAX, O, 
MPI. COMM, WORLD) ; 
MPI Reduce (&£time elapsed, &ave time, 1, MPI DOUBLE, MPI SUM, O, 
MPI. COMM. WORLD) ; 
if (ID == 0){ 
ave time = ave time /(double)num_procs; 
printf(" min, ave and max times (secs): Wf, Af, %f\n", 
min time, ave time,max time); 


} 


MPI_Finalize(); 
return 0; 





6-16 ”用 于 计时 runit O BUPRZACDAU TIRE IRIES MPI 程序 ， 使 用 MPI_Rduce 计算 最 短 、 最 长 和 平均 运行 时 间 


图 6-17 展示 了 OpenMP 中 的 一 个 归 约 示例 ， 它 是 图 6-16 的 一 个 OpenMP 版 本 。 在 并 行 
区 域 之 前 声明 了 线程 数目 变量 (num threads) 和 平均 时 间 变 量 (ave time )， 它 们 在 并 
行 区 域 的 内 部 和 后 面 都 是 可 见 的 。 在 parallel 指令 中 使 用 了 一 个 reduction TH, X* 
明 将 对 变量 ave time 做 求 和 归 约 。 编 译 器 将 创建 该 变量 的 一 个 局 部 副本 ， 并 将 它 初始 化 为 
问题 中 运算 符 的 单位 元 (加 法 运算 的 单位 元 是 0 )。 每 个 线程 将 其 局 部 总 和 放 到 这 个 局 部 副本 
中 ,在 并 行 区 的 末尾 ， 所 有 的 局 部 副本 被 组 合 进 ave time 以 产生 最 终 值 。. 
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#include <stdio.h> 
#include <omp.h> // OpenMP include file 


extern void runit(); 
int main(int argc, char**argv) { 


int num_threads; // the number of processes in the group 
double ave_time=0.0; 


#pragma omp parallel reduction(+ : ave_time) num_threads(10) 


double local_result; 
double time_init, time_final, time_elapsed; 


// The single construct causes one thread to set the value of 
// the num threads variable. The other threads wait at the 
// barrier implied by the single construct. 
#pragma omp Single 
num threads = omp get num threads(); 


time init = omp get vtime(); 

runit(); // a function that we wish to time on each process 
time final = omp get wtime(); 

time elapsed = time final - time, init; 

ave time *- time elapsed; 

ave time - ave time/(double)num, threads; 


printf(" ave time (secs): %f\n", ave time); 
return 0; 





图 6-17 用 于 计时 runitO 的 函数 执行 时 间 的 OpenMP 程序 ， 使 用 归 约 子 句 计算 运行 时 间 总 和 


要 计算 平均 时 间 ， 还 需要 知道 并 行 区 域 中 的 线程 个 数 。 确 定 线程 数目 的 唯一 方式 是 在 并 
行 区 域 中 调用 omp num thread() 函数 。 对 同一 变量 的 多 次 写 会 相互 干扰 ， 因 此 将 omp 
num thread) 的 调用 放 在 一 个 single 构造 中 ， 确 保 仅 有 一 个 线程 设置 num threads dt 
享 变量 的 值 。OpenMP 的 single 块 隐 含 了 一 个 栅栏 ， 因 此 为 了 确保 所 有 线程 同时 进入 计时 
代码 ， 不 需要 再 显 式 地 包含 一 个 栅栏 。 最 后 ， 在 图 6-17 中 仅 计 算 了 平均 时 间 ， 因 为 最 小 和 最 
大 运算 符 没有 包括 在 C/C++ OpenMP 的 2.0 版 本 中 。 

实现 归 约 操作 。 大 多 数 程序 员 不 会 实现 目 己 的 归 约 操作 ， 因 为 大 多 数 并 行 编程 模型 中 已 
经 实现 了 归 约 机 制 。 但 是 Java 并 不 提供 归 约 运算 符 ， 因 此 Java 程序 员 需 要 实现 相应 的 并 行 归 
约 算 法 。 在 任何 情况 下 ， 用 于 归 约 的 算法 是 有 帮助 的 ， 值 得 深入 理解 。 

下 面 将 讨论 一 些 基于 树 的 最 简单 的 可 伸缩 并 行 归 约 算法 ， 尽 管 有 些 算法 不 是 最 优 的 ， 但 
它们 揭示 了 一 些 更 优 的 归 约 算法 [CKP"93] 中 的 大 多 数 问题 。 

串 行 计 算 。 如 果 归 约 运算 符 不 是 可 结合 的 ， 或 者 在 不 显著 影响 结果 的 情况 下 不 能 够 被 当 
作 可 结合 的 ， 则 需要 在 单个 UE 中 串 行 地 执行 整个 归 约 ， 算 法 如 图 6-18 所 示 。 如 果 仅 有 一 个 
UE 需要 归 约 结果 ， 则 最 简单 的 方法 是 让 该 UE 执行 该 操作 ; 如 果 所 有 UE 需要 该 结果 ， 则 归 
约 操 作 之 后 可 以 调用 一 个 广播 操作 ， 将 结果 广播 给 其 他 UE。 为 了 简化 问题 ， 在 图 6-18 H, 
UE 的 数目 与 数据 项 数目 相同 。 但 算法 可 扩展 为 处 理 数据 项 数目 比 UE 数目 多 的 情况 ， 只 是 仍 
然 需 要 在 单个 UE 中 进行 所 有 的 实际 计算 。 因 为 缺乏 可 结合 性 ， 显 然 ， 这 种 解决 方案 不 具备 
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并 发 性 。 这 里 为 了 完整 起 见 提 到 了 并 发 性 ， 因 为 如 果 归 和 约 操 作 表 示 相 对 少 部 分 计算 ( 其 他 部 
分 不 具有 可 挖掘 的 并 发 性 )， 则 并 发 性 可 能 很 有 用 并 比较 合适 。 


5 B 
E - 


sum(a(0:3)) 


图 6-18 计算 a(0) ~ a(3) 总 和 的 串 行 归 约 算法 。Sum (a (1:30) 表示 数组 a 中 i ~ j 元 素 的 总 和 


在 这 种 方法 中 ， 组 合 两 个 元 素 的 操作 必须 串 行 执行 ， 因 此 最 简单 的 方式 是 所 有 操作 被 某 
个 任务 执行 。 但 是 由 于 数据 依赖 性 的 原因 (图 6-18 中 的 箭头 所 示 )， 如 果 归 约 操作 作为 一 个 
包含 多 个 并 发 UE 的 较 大 计算 的 一 部 分 执行 ， 则 需要 非常 谨慎 ; 不 执行 归 约 的 UE 能 够 继续 其 
他 的 工作 ， 但 必须 保证 不 影响 归 约 操作 的 计算 ( 例如， 如果 多 个 UE 共享 访问 一 个 数组 ， 并 
且 其 中 一 个 VE 正在 计算 数组 元 素 的 总 和 ， 则 其 他 UE 不 应 当 同 时 修改 数组 的 元 素 )。 在 一 个 
消息 传递 环境 中 ， 这 通常 可 以 通过 使 用 消息 传递 以 强制 数据 依赖 性 约束 来 完成 ( 即 不 执行 归 
约 操作 的 UE 将 它们 的 数据 发 送 给 实际 进行 计算 的 某 个 UE )。 在 其 他 环境 中 ， 不 执行 归 约 操 
VERY UE 可 以 通过 一 个 栅栏 强制 等 待 。 | 

基于 树 的 归 约 。 如 果 归 约 运算 符 是 可 结合 的 或 能 够 被 当 作 可 结合 的 ， 则 可 利用 图 6-19 中 
基于 树 的 算法 。 该 算法 由 一 系列 的 阶段 组 成 ， 每 个 阶段 都 有 一 半 的 UE 将 其 数据 传递 给 其 他 
UE。 初 始 时 所 有 UE 包含 在 归 约 中 ， 但 每 个 阶段 后 一 半 的 UE 将 不 进行 后 续 运 算 ， 最 终结 果 
将 在 某 一 UE 中 计算 。 

为 简化 起 见 ， 在 图 6-19 中 ，UE 数 目 与 数据 项 数目 相同 ， 但 算法 可 以 扩展 到 处 理 数据 
项 数目 比 UE 数 目 多 的 情况 ， 其 方式 是 每 个 UE 首先 对 数据 项 的 一 个 子 集 执行 一 个 串 行 归 
约 ， 然 后 利用 图 6-19 所 示 的 算法 进发 计算 ( 每 个 UE 的 串 行 归 约 是 独立 的 ， 能 够 并 发 地 
执行 )。 

在 基于 树 的 归 约 算法 中 ， 某 些 (不 是 全 部 ) 组 合 两 个 元 素 的 操作 可 以 并 发 地 执行 ( 例 
如 ， 在 图 6-19 中 ， 可 以 并 发 计算 sum (a (0:1)) 和 sum(a(2:3)), 但 sum(a(0:3)) 
的 计算 必须 等 待 )。 使 用 2 个 UE 执行 基于 树 的 归 约 算法 时 ， 更 为 通用 的 策略 是 划分 为 n 个 
阶段 ， 其 中 每 个 阶段 所 包含 的 并 发 操作 数目 是 前 一 个 阶段 的 一 半 。 在 串 行 阶段 ， 需 要 满足 
图 6-19 中 所 示 的 数据 依赖 性 。 在 消息 传递 环境 中 ， 这 通常 通过 合理 的 消息 传递 来 完成 ; 在 其 
他 环境 可 以 通过 在 每 个 阶段 之 后 使 用 栅栏 同步 来 实现 。 
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图 6-19 在 一 个 具有 4 个 UE 的 系统 中 计算 a (0) ~ a (C3) 的 总 和 的 基于 
树 的 归 约 。sum (a (i:j )) 表示 数组 a 中 i ~ j 元 素 的 总 和 


如 果 只 有 一 个 UE 需要 归 约 结果 ， 则 基于 树 归 约 算法 是 最 优 的 。 如 果 其 他 UE 也 需要 最 
终结 果 ， 则 归 约 操作 之 后 可 以 紧 跟 一 个 广播 操作 ， 而 广播 操作 可 以 利用 与 图 6-19 所 示 的 归 约 
相反 的 过 程 实现 ， 即 在 每 一 个 阶段 中 获得 最 终结 果 的 UE 将 值 传 给 男 一 UE， 这样 获 得 数据 的 
UE 数目 将 增加 一 倍 。 

递归 加 倍 ( recursive doubling )。 如 果 所 有 UE 都 必须 知道 归 约 的 最 终结 果 ， 则 图 6-20 
中 的 递归 加 倍 策略 要 优 于 在 基于 树 的 方法 后 面 调用 一 个 广播 操作 。 


sum(a(0:1)) sum(a(0:1)) sum(a(2:3)) sum(a(2:3)) 
eno ere 
& e? e£ £) 


sum(a(0:3)) sum(a(0:3)) sum(a(0:3)) sum(a(0:3)) 


图 620 计算 a (0) ~a(3) 的 总 和 的 递归 加 倍 归 约 。 
Sum (a (i:3)) 表示 数组 a 中 i ~ j 元 素 的 总 和 


与 基于 树 的 算法 一 样 ， 如 果 UE 的 数目 等 于 2"， 则 算法 分 成 a 个 步 绝 。 在 算法 的 开始 ， 
每 个 UE 有 一 些 人 用 于 归 约 。 这 些 值 在 本 地 组 合 为 单个 值 以 实现 归 约 。 第 一 个 阶段 中 ， 偶 数 
编号 的 UE 与 其 奇数 编号 的 邻居 交换 部 分 和 。 第 二 个 阶段 中 ， 距 离 为 2 的 两 个 UE 交换 部 分 
和 。 第 三 个 阶段 中 ， 距 离 为 4 的 两 个 UE 交换 部 分 和 。 依 此 类 推 ， 在 每 个 阶段 将 两 个 交换 部 
分 和 的 UE 的 距离 加 倍 ， 直 到 归 约 完成 。 

TE n BrEUS, BES UE 都 得 到 归 约 的 最 终结 果 。 将 这 个 策略 与 前 面 使 用 基于 树 的 算法 
后 调用 一 个 广播 的 策略 相 比 ， 归 约 和 广播 都 需要 nn 个 步骤 ， 广播 直到 归 约 完成 后 才能 够 开始 ， 
因此 所 消耗 的 时 间 是 Oln), EX 2n 个 步骤 期 间 ， 许 多 UE 是 空闲 的 。 但 是 ， 递 归 加 倍 算法 
在 每 个 阶段 涉及 所 有 UE, HH n 个 步骤 后 ， 在 每 个 UE 中 产生 单个 归 约 值 。 
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6.4.3 ”其 他 通信 构造 


前 面 已 经 介绍 了 常用 的 消息 传递 构造 ， 包 括 点 到 点 通信 和 集合 通信 。 消 息 传 递 中 有 多 种 
重要 的 变 体 ， 例如， 在 MPI 中 ， 可 以 改变 通信 缓冲 区 处 理 方式 或 者 重 芭 通信 和 计算 从 而 改进 
程序 性 能 。 附 录 B 描述 这 几 种 方法 。 

在 前 述 通信 方式 中 ， 有 一 个 接收 UE 和 一 个 发 送 UE， 这 种 方式 称 为 双边 通信 。 对 某 些 算 

. 法 ， 例 如 ， 在 5.10 节 中 讨论 过 的 分 布 数组 模式 ， 需 要 计算 索引 ， 并且 将 存放 在 分 布 式 数 据 结 
构 中 ， 然 后 将 数据 结构 映射 到 需要 数据 的 进程 上 ， 这 些 操作 非常 复杂 ， 并 且 难 以 调试 ， 可 以 
利用 单 边 通信 来 避免 其 中 某 些 问题 。 

当 一 个 UE 与 男 一 个 UE 通信 并 且 不 显 式 地 涉及 其 他 UE 时 ， 将 发 生 单 边 通信 。 例 如 ， 消 

251) 息 可 以 直接 被 写 人 目的 节点 的 缓冲 区 中 ， 而 且 不 用 涉及 接收 UE. MPI 2.0 标准 包括 一 个 单 边 
通信 API。 单 边 通信 的 早期 实现 是 一 个 称 为 GA 或 Globa Arrays[NHL94, NHL96, NHK'02, 

Gloa] 的 通信 系统 。GA 提供 了 一 个 简单 的 单 边 通信 环境 ， 主 要 服务 于 分 布 式 数组 算法 。 

男 一 种 方法 是 将 显 式 通信 和 替换 为 虚拟 共享 内 存 ， 物 理 内 存 可 以 是 分 布 式 的 ， 因 此 使 用 

“虚拟 ”一 词 。20 世纪 90 年 代 早 期 非常 流行 的 方法 是 Linda [CG91]。Linda 是 基于 一 种 称 为 

元 组 空间 的 相连 虚拟 共享 内 存 。Linda 中 的 操作 包括 put, take 或 read 一 个 数值 集 ， 并 把 它 捆 

绑 到 一 个 称 为 元 组 的 对 象 中 。 通 过 匹配 一 个 模板 来 访问 元 组 ， 这 种 方式 使 得 内 存 成 为 内 容 可 

寻 址 的 。Linda 通常 实现 为 协作 语言 一 一 某 种 普通 的 编程 语言 扩展 语言 ， 即 所 谓 的 计算 语言 。 

现在 Linda 已 不 再 用 于 任何 重要 的 扩展 中 ， 但 相关 联 的 虚拟 共享 内 存 思想 被 用 于 JavaSpaces 

中 [FHA99]。 

最 近 开 始 使 用 的 另 一 种 将 消息 传递 隐藏 到 虚拟 共享 内 存 的 技术 ， 是 基于 划分 全 局 地 址 

空间 模型 ( UPC [UPC], Titanium [Tita] 和 Co-Array Fortran [CO] ) 的 语言 集合 。 它 们 是 C、 

Java 和 Fortran 三 种 语言 分 别 基于 一 种 虚拟 共享 内 存 的 显 式 并 行 语 言 (dialect); 5j Linda 或 者 

OpenMP 等 其 他 共享 内 存 模型 不 同 ， 划 分 全 局 地 址 空间 模型 中 的 共享 内 存 ， 并 包括 共享 内 存 

到 特定 处 理 器 的 仿 射 概念 。UE 可 以 读 和 写 彼此 的 存储 器 ， 并 进行 批量 转换 。 编 程 模型 还 考虑 

了 非 一 人 怪 内 存 访问 ， 使 得 模型 能 适用 于 多 种 机 器 ， 包 括 SMP. NUMA 和 集群。 
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Patterns for Parallel Programming 


OpenMP 简介 





OpenMP[OMP] 是 一 个 能 够 为 共享 内 存 计算 机 创建 并 行程 序 的 编译 制导 指令 和 库 函 数 的 
集合 。OpenMP 结合 C/C++ 或 者 Fortran， 以 创建 一 种 多 线程 编程 语言 ; 也 就 是 说 ，OpenMP 
语言 模型 基于 一 个 假设 : UE 为 共享 地 址 空间 的 线程 。 

OpenMP 的 正式 定义 包括 两 个 规范 ， 一 个 针对 Fortran， 男 一 个 针对 C 和 C++。 虽 然 它 们 
之 间 存 在 细微 的 差别 ， 但 是 对 于 大 部 分 内 容 ， 当 程序 员 熟 悉 基于 一 种 语言 的 OpenMP， 就 可 
以 很 轻松 地 掌握 基于 男 一 种 语言 的 OpenMP., 

OpenMP 是 基于 派生 /聚合 (fork/join ) 的 编程 模型 。OpenMP 程序 开始 执行 时 ， 只 是 一 
个 单线 程 程序 ; 当 程 序 需 要 并 行 执行 时 ， 就 会 派生 出 另外 一 些 线程 ， 形 成 一 个 线程 组 ; 多 个 
线程 并 行 执行 并 行 区 域 的 代码 ; 在 并 行 区 域 的 最 后 ， 线 程 将 等 待 直到 线程 组 中 所 有 线程 都 执 
行 到 该 位 置 ; 然后 线程 聚合 在 一 起 。 此 时 ， 初 始 或 主线 程 继续 执行 ， 直 到 下 一 个 并 行 区 域 (或 
程序 结束 )。 

OpenMP 创建 者 的 目标 就 是 使 得 应 用 程序 开发 人 员 能 更 容易 地 使 用 OpenMP。 对 于 并 行 
程序 来 说 ， 性 能 优化 是 非常 重要 的 。 但 是 这 个 过 程 如 果 会 导致 编程 语言 对 于 软件 开发 人 员 变 
得 难以 使 用 ,或 者 难以 创建 并 行程 序 ， 又 或 者 程序 难以 维护 ， 那 么 这 样 的 优化 措施 是 不 可 取 
的 。 为 此 ，OpenMP 的 设计 围绕 着 两 个 关键 原则 : 串 行 等 价 性 和 递增 并 行 性 。 

如 果 一 个 程序 单线 程 执行 和 多 线程 执行 均匀 会 产生 相同 结果 “， 则 称 该 程序 具有 串 行 等 价 
性 。 串 行 等 价 程序 更 易于 维护 ， 并 且 也 更 容易 理解 (所 以 也 更 容易 写 )。 

递增 并 行 性 指 的 将 串 行 程序 并 行 化 的 一 个 并 行 编程 类 型 。 程 序 员 从 串 行程 序 开 始 ， 然 后 
按 序 在 程序 中 逐次 查找 值得 并 行 执行 的 代码 片段 。 这 样 ， 并 行 性 是 逐步 增加 的 。 在 并 行 化 每 
一 个 代码 块 后 ， 都 进行 详细 验证 ， 这 增 大 了 程序 成 功 并 行 化 的 可 能 性 。 

并 不 是 始终 可 以 利用 递增 并 行 性 或 创建 具有 串 行 等 价 性 的 OpenMP 程序 。 有 时 一 个 并 行 
算法 需要 完全 地 重 构 其 串 行程 序 ， 来 获得 一 个 并 行程 序 ; 有 时 ， 程 序 从 最 开始 构建 时 就 是 并 
行 的 ， 没 有 串 行 代码 。 另 外 ， 一 些 并 行 算法 无 法 通过 一 个 线程 来 完成 ， 所 以 不 具有 串 行 等 价 
性 。 但 递增 并 行 性 和 串 行 等 价 性 仍 指导 着 OpenMP API 的 设计 ， 而 且 是 推荐 的 实践 。 


A.1 核心 概念 


我 们 通过 讨论 一 个 将 字符 串 输 出 到 标准 输出 设备 的 简单 程序 ， 来 回顾 OpenMP 的 核心 概 
念 。 这 个 程序 的 Fortran 和 C 语言 版 本 如 图 A-1 Bras. 
我 们 将 该 程序 并 行 化 ， 即 ， 程 序 会 创建 多 个 线程 ， 每 个 线程 都 会 输出 “E pur si muove””。 


加 ”由 于 浮 点 运算 的 不 可 结合 性 ， 结 果 可 能 略微 不 同 。 
© 这 是 Giordano Bruno 在 1600 年 2 月 16 日 ,由 于 坚持 地 球 绕 着 太阳 转 而 要 被 烧 死 时 所 说 的 话 。 这 句 拉丁 语 
大 概 可 以 翻译 为 “尽管 如 此 ， 它 还 是 运动 的 ”。 
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program simple #include <stdio.h> 
print *,"E pur si muove" int main() 


stop 
end printf("E pur si muove \n"); 





图 A-1 输出 字符 串 到 标准 输出 的 Fortran 和 C 程序 


OpenMP 是 一 种 显 式 并 行 编程 语言 ， 编 译 需 不 需 推 测 如 何 挖掘 并 行 性 。 程 序 中 的 任何 并 
行 部 分 都 是 由 编程 人 员 明 确 指示 出 的 。 为 创建 OpenMP 线程 ， 程 序 员 需要 指定 将 要 并 行 执行 
E 的 代码 块 。 在 C 和 C++ 中 通过 编译 制导 (pragma ) 来 完成 : 


254 #pragma omp paraliel 
在 Fortran 中 通过 如 下 指令 完 
C$OMP PARALLEL 


现代 的 程序 语言 ( 如 C 和 C++ ) 都 是 块 结构 的 。 但 Fortran 不 是 。 所 以 ，Fortran OpenMP 
规范 定义 了 一 条 指令 ， 来 结束 并 行 块 : 


C$0MP END PARALLEL 


这 个 模式 也 应 用 于 OpenMP 的 其 他 Fortran 结构 中 : 一 条 指令 用 于 创建 并 行 结构 块 ， 一 条 
在 OMP 之 后 插入 END 的 指令 用 于 结束 结构 块 。 
图 A-2 展示 了 并 行程 序 ， 每 个 线程 都 输出 一 个 字符 串 到 标准 输出 。 


program simple #include <stdio.h> 
C$0MP PARALLEL #include "omp.h" 
print *,"E pur si muove" int main() 
C$0MP END PARALLEL 
stop #pragma omp parallel 
end 1 


printf("E pur si muove\n"); 





255 图 A-2 输出 一 个 简单 字符 串 到 标准 输出 的 并 行程 序 的 Fortran 和 C 实现 


当 程 序 执行 时 ，OpenMP 运行 时 系统 创建 一 组 线程 ， 每 个 线程 都 执行 并 行 结 构 中 的 指令 。 
如 果 程 序 员 不 特别 指出 要 创建 的 线程 数目 ， 系 统 就 会 采用 一 个 默认 值 。 我 们 稍 后 会 演示 如 何 
指定 线程 数目 。 在 这 里 ， 为 演示 这 个 例子 ,假定 线程 数目 为 3。 

OpenMP 要 求 保证 VO 具有 线程 级 安全 性 。 因 此 ， 每 个 线程 输出 的 输出 记录 被 完全 输出 ， 
而 不 受 其 他 线程 的 干扰 。 图 A-2 中 的 程序 的 输出 结果 如 下 所 示 。 

E pur Si muove 


E pur si muove 
E pur si muove 


在 这 一 情况 下 ， 每 个 输出 记录 都 是 完全 相同 的 。 但 是 ， 值 得 注意 的 是 ， 尽 管 每 个 记录 作 
为 一 个 单元 和 输出， 但 是 记录 之 间 可 以 以 任何 方式 交叉 ， 所 以 ， 程 序 员 不 能 期 望 这些 记 录 以 确 
定 的 顺序 输出 。 


tt - 


OpenMP 是 一 个 共享 内 存 编程 模型 ， 内 存 模型 的 细节 将 在 后 面 讨论 。 但 是 大 部 分 实例 都 
会 采用 的 一 个 规则 是 : 定义 在 并 行 区 域 之 前 的 变量 被 线程 所 共享 。 所 以 图 A-3 中 程序 的 输出 
结果 为 : 


E pur si muove 5 
E pur si muove 5 
E pur si muove 5 


program simple #include <stdio.h> 


#include "omp.h" 


integer i 

i-5 
C$0MP PARALLEL 

print *,"E pur si muove",i 
C$0MP END PARALLEL 

stop 

end 


int main() 
int i=5; 
*pragma omp parallel 
1 


printf("E pur si muove %d\n",i); 





图 A-3 输出 一 个 简单 字符 串 到 标准 输出 的 并 行程 序 的 Fortran 和 C 实现 


如 果 一 个 变量 是 在 并 行 区 域内 声明 的 ， 就 称 为 线程 的 局 部 变量 或 者 私有 变量 。 在 C 程序 
中 ， 一 个 变量 的 声明 可 以 出 现在 任意 程序 块 。 但 是 在 Fortran 中 ， 声 明 只 能 出 现在 子 程序 的 
开始 。 

图 A-4 演示 了 一 个 包含 一 个 局 部 变量 的 C 程序 。 这 个 程序 包含 一 个 函数 调用 : omp 
get thread_num() 。 这 个 整 型 函数 为 OpenMP 标准 运行 库 ( 后 文 会 有 详细 描述 ) 中 的 函 
数 。 对 于 不 同 线程 ， 它 返回 一 个 用 于 标识 线程 的 唯一 整数 值 ， 这 个 整数 值 取 值 范围 为 0 到 线 
程 数目 减 一 。 如 果 假 设 线程 数量 的 默认 值 为 3， 则 有 如 下 输出 〈 以 任意 顺序 交叉 ): 

c=0,i=5 


¢=2, i=5 
c#i,i#=5 


#include <stdio.h> 
#include <omp.h> 
int main() 


int i=5; // a shared variable 


#pragma omp parallel 
{ 


int c; // a variable local or private to each thread 
c = omp get thread num(); 
printf("c = 4d, i = %d\n",c,i); 





图 A-4 ”演示 共享 变量 与 局 部 (或 者 私有 ) 变量 区 别 的 一 个 简单 程序 


输出 的 第 一 个 变量 c 是 私有 变量 ， 每 个 线程 都 有 一 个 自己 的 私有 副本 ， 并 存储 不 同 值 。 
输出 的 第 二 个 变量 i 是 共享 的 ， 所 以 所 有 线程 输出 相同 的 i fü. 
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在 每 一 个 例子 中 ， 运 行 时 系统 允许 选择 线程 的 数量 。 最 常用 的 方法 是 ， 设 置 环境 变量 
OMP NUM THREADS 的 值 ， 以 改变 应 用 于 OpenMP 程序 的 系统 默认 线程 数量 。 例 如 ， 在 具有 
csh shell 的 Linux 系统 中 ， 为 在 程序 中 使 用 3 个 线程 ， 在 运行 程序 之 前 ， 需 执行 如 下 指令 : 

setenv OMP_NUM_THREADS 3 | 

这 些 例子 中 ， 应 该 认为 线程 数量 是 一 个 特定 线程 数目 的 请 求 。 特 定 环 境 下 的 系统 提供 的 
线程 数量 可 能 要 小 于 请 求 的 线程 数量 。 所 以 ， 如 果 一 个 算法 需要 知道 实际 使 用 的 线程 数量 ， 
必须 在 并 行 区 域内 向 系统 查询 该 数目 。A.5 节 会 说 明 如 何 做 到 这 点 。 


#pragma omp parallel num_threads(3) 


A.2 ”结构 块 和 命令 格式 


一 个 OpenMP 结构 被 定义 为 一 个 编译 制导 指令 (或 pragma ) 加 上 一 个 代码 快 。 但 不 是 任 
何 代码 都 可 以 。 它 必须 是 结构 化 的 块 。 也 就 是 说 ， 这 个 块 只 有 一 个 顶端 入 口 点 ， 也 只 有 一 个 
257| 底部 出 口 点 。 
OpenMP 程序 的 结构 化 块 不 允许 分 支 进入 或 分 支 退 出 。 如 果 这 样 做 ， 通 常会 在 编译 时 产 
生 严 重 错误 。 同 样 地 ， 结 构 化 块 不 能 包含 return 语句 。 唯 一 允许 的 分 支 语句 是 终止 整个 程 
序 的 语句 (在 Fortran 中 是 STOP, ÆC 中 是 exit () )。 若 结构 块 只 包含 一 个 语句 ， 则 不 需 
要 大 括号 (在 C 中 ) 或 者 end 结构 指令 (在 Fortran 中 )。 
如 简单 示例 所 示 ，C 或 C++ 的 一 条 OpenMP 指令 的 格式 为 : 
#pragma omp directive-name [clause[ clause] ... ] 
Hh, directive-name 用 于 标识 该 结构 块 ， 可 选 子 名 "用 于 修改 结构 块 。 C 或 C++ 
中 的 一 些 OpenMP 编译 制导 例子 如 下 所 示 : 


#pragma omp parallel private(ii, jj, kk) 
#pragma omp barrier 
#pragma omp for reduction(+:result) 


在 Fortran 中 ， 情 况 会 复杂 一 些 。 我 们 只 考虑 简单 例子 ， 即 固定 格式 -的 Fortran 代码 。 
在 这 种 情况 下 ， 一 个 OpenMP 具 指 令 有 如 下 格式 : 


sentinel directive-name [clause[[,]clause] ... ] 


HH, sentinel AWE: 


C$0MP 
C'OMP 
* ! OMP 


其 中 应 用 了 固定 格式 源 代码 行规 则 。 结 构 中 的 空格 是 可 选 的 , 行 间 的 连续 性 是 由 第 6 列 
中 的 字符 所 标识 。 例 如 ， 下 面 三 条 OpenMP 指令 是 等 价 的 : 


C$0MP PARALLEL DO PRIVATE(I,J) 


*!OMP PARALLEL 
*!OMP1 DOPRIVATE(I,J) 


C!OMP PARALLEL DO PRIVATE(I,J) 


O 在 本 附录 中 ， 使 用 方 括号 来 表示 可 选 的 句法 元 素 。 
O 固定 格式 是 指 在 Fortran 的 旧 的 版 本 ( Fortran77 以 及 更 早 的 版 本 ) 中 的 语句 的 固定 列 约定 。 
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A.3 工作 分 摊 


在 并 行 结 构 中 ， 每 个 线程 执行 的 是 相同 的 代码 块 。 但 是 ， 有 时 我 们 需要 将 不 同 的 代码 映 
射 到 不 同 的 线程 上 。 这 称 为 工作 分 摊 ( worksharing ). 

OpenMP 中 最 常用 的 工作 分 挫 结 构 是 在 不 同 线程 间 划 分 循环 迭代 。 在 并 行 编 程 中 ,设计 
关于 并 行 循环 的 并 行 算法 是 非常 传统 的 方法 [X393]。 这 一 方法 有 时 称 为 循环 划分 ，5.6 节 已 经 
做 了 详细 讨论 。 这 种 方法 中 ， 程 序 员 识别 出 程序 中 最 耗 时 的 循环 。 然 后 ， 通 过 将 程序 的 不 同 
循环 迭代 组 映射 到 不 同 线程 上 ， 以 实现 并 行 化 。 

参考 图 A-5 中 的 程序 。 在 这 个 程序 中 ， 反 复 调用 计算 密集 型 函数 big _comp()， 以 计算 
中 间 结 果 数 据 ， 然 后 把 这 些 数据 合并 到 单个 全 局 结果 中 。 对 于 这 个 例子 ,假设 : 

e combine () 例 程 运行 时 间 较 短 ; 

e combine () 困 数 必须 以 串 行 顺序 调用 。 


program loop. #include <stdio.h> 
real *8 answer, res #define N 1000 
real *8 big_comp extern void combine(double, double) ; 
integer i, N extern double big comp(int); 
N = 1000 
answer = 0.0; 
do i=1,N 
res = big comp(i) 
call combine(answer, res) 
end do 
print *,answer 
stop 
end 





int main() { 
int i; 
double answer, res; 
answer = 0.0; 
for (i=0;i<N;it+){ 
res = big comp(i); 
combine(answer,res); 


printf("%f\n", answer); 





图 A-5 一 个 典型 的 循环 程序 的 Fortran 与 C 实现 


并 行 化 的 第 一 步 是 使 循环 迭代 相互 独立 。 完 成 这 一 目标 的 一 个 可 行 方 法 如 图 A-6 所 示 。 
因为 combine) 函数 必须 以 相同 顺序 调用 ( 和 在 串 行程 序 中 的 调用 一 样 )， 这 使 并 行 算法 引 
入 了 额外 的 顺序 约束 。 这 导致 了 循环 迭代 间 的 依赖 关系 。 我 们 想 并 行 执行 循环 和 迭代， 就 需要 
移 除 这 一 依赖 关系 。 


#include <stdio.h> 

extern void combine(double, double); 
extern double big_comp(int) ; 

#define N 1000 


program loop 
real *8 answer, res(1000) 
real *8 big_comp 
integer i, N 
N = 1000 
int main() { 
int i; 
double answer, res[N]; 
answer = 0.0; 
for (i=0;i<N;i++) 
res[i] = big comp(i); 


answer = 0.0; 
do i=1,N 
res(i) = big_comp(i) 


end do 


do i=1,N 
call combine(answer,res(i)) 
end do for (i=0;i<N;i++){ 
combine (answer,res[i]); 
print *,answer 
stop 
end 


printf("%f\n", answer) ; 





图 A-6 一 个 典型 的 循环 程序 的 Fortran 5 C 实现 。 这 个 版 本 中 ， 
计算 密集 型 循环 被 分 离 和 修改 ,使 迭代 间 相 互 独立 
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在 这 个 例子 中 ,假设 combine () 函数 是 简单 的 而 且 不 需要 花费 大 量 时 间 来 执行 。 所 以 ， 
将 combine () 函数 移 到 并 行 区 域外 来 执行 也 是 可 以 接受 的 。 我 们 通过 将 big_comp () it 
算 的 每 个 中 间 结 果 存 储 于 一 个 数组 元 素 中 。 该 数组 元 素 在 之 后 的 另外 一 个 循环 中 按 顺 序 传 递 
给 combine () 函数 。 此 代码 转换 保留 了 原始 程序 的 意义 ( 也 就 是 说 ， 并 行 代码 和 原始 代码 
的 执行 结果 是 一 致 的 )。 

通过 这 一 转换 ， 第 一 个 循环 的 迭代 间 是 相互 独立 的 ， 可 以 安全 地 并 行 执 行 。 为 了 将 循环 
迭代 分 配给 多 个 线程 ， 需 要 使 用 OpenMP 的 工作 分 摊 结 构 。 这 个 结构 直接 将 紧 随 其 后 的 循环 
迭代 分 配给 一 组 线程 。 之 后 我 们 将 讨论 如 何 控制 循环 迭代 被 调度 的 方式 ， 但 是 现在 ， 我 们 让 
系统 来 识别 如 何 将 循环 迭代 映射 到 线程 上 。 并 行 版 本 如 图 A-7 所 示 。 


program loop #include <stdio.h> 

real *8 answer, res(1000) #include <omp.h> 

real *8 big_comp() #define N 1000 

integer i,N extern void combine(double,double); 
N = 1000 extern double big comp(int); 

answer = 0.0; 


int main() { 
C$0MP PARALLEL int i; 
C$OMP DO double answer, res[N]; 
do i=1,N answer = 0.0; 
res(i) = big_comp(i) 
end do #pragma omp parallel 
{ 


C$0MP END DO 
C$0MP END PARALLEL #pragma omp for 
for(is0;i«N;i**) { 
do i=1,N res[i] = big comp(i); 
call combine(answer,res) } 
end do } 


print *,answer for (i=0;i<N;i++){ 
stop combine (answer ,res[i]); 
end 

printf("%Zf\n", answer); 





A-7 一 个 典型 循环 程序 的 OpenMP 并 行 化 Fortran 和 C 实现 ) 


OpenMP 的 parallel 结构 用 于 创建 一 组 线程 。 紧 接着 是 工作 分 摊 结 构 ， 在 线程 间 分 捧 
循环 迭代 : 在 Fortran 中 用 Do 结构 ， 在 C/C++ 中 用 for 结构 。 因 为 不 存在 两 个 线程 更 新 同 
一 个 变量 ， 并 且 任 何不 可 交换 或 不 可 结合 的 操作 (例如 ，combine () 函数 的 调用 ) 都 以 串 
行 顺序 执行 ， 所 以 程序 可 以 正确 地 并 行 执 行 ， 并 保留 串 行 等 价 性 。 值 得 注意 的 是 ， 根 据 之 前 
给 出 的 关于 变量 共享 的 相关 规则 ， 循 环 控制 变量 i 会 被 线程 所 共享 。OpenMP 规范 认为 ， 在 
并 行 循 环 中 ， 一 个 循环 控制 索引 变量 的 共享 没有 任何 意义 ， 所 以 它 自 动 为 每 个 线程 创建 一 个 
循环 控制 索引 (变量 1) 的 副本 。 

默认 情况 下 ， 在 所 有 工作 分 摊 结 构 的 后 面 都 会 有 隐 含 的 barrier 操作 。 也 就 是 说 ， 所 有 线 
程 到 达 结 构 的 末尾 后 均等 待 ， 只 有 等 到 所 有 线程 都 到 达 时 ， 线程 才 继 续 执行 。 可 以 通过 在 工 
作 分 挫 结 构 中 添加 nowait 子 句 消除 这 种 barrier: 


#pragma omp for nowait 


但 要 慎 用 nowait 子 句 ， 因 为 在 大 多 数 情形 中 ， 都 需要 这 个 barrier 来 阻止 竞 态 条 件 。 
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在 OpenMP 中 ， 存 在 其 他 两 种 常用 的 工作 分 摊 结 构 : single 结构 和 sections 结构 。 
single 结构 定义 一 个 代码 块 ， 该 代码 块 将 被 第 一 个 利用 该 结构 的 线程 所 执行 。 其 他 线程 跳 
过 该 结构 ， 并 在 single 结构 的 末端 等 待 隐 含 的 barrier 操作 ( 除非 使 用 了 nowait FAJ). 我 
们 在 第 6 章 的 OpenMP 归 约 示例 中 使 用 了 这 种 结构 。 当 我 们 将 在 并 行 区 域 中 创建 的 线程 数目 
复制 到 一 个 共享 变量 中 时 ， 为 了 确保 仅 有 一 个 线程 对 这 个 共享 变量 进行 写 操 作 ， 需 要 将 这 条 
语句 放 到 一 个 single 结构 中 : 


#pragma omp single 
num threads = omp_get_num_ threads(); 


sections 结构 用 于 构建 一 个 程序 区 域 。 在 这 个 区 域 中 ， 把 不 同 的 代码 块 分 配给 不 同 的 
线程 。 每 块 代码 均 定 义 成 一 个 section 结构 。 在 示例 中 ， 没 有 使 用 sections 结构 ， 因 此 
这 里 不 再 详 述 。 

在 OpenMP 程序 中 ， 在 一 个 并 行 结构 后 面 紧 跟着 一 个 工作 分 摊 结 构 是 非常 常见 的 情况 。 
例如 ， 在 图 A-7 中 ， 有 如 下 代码 : 

tpragna omp parallel 

fpragma omp for 
oo 


为 了 简化 代码 ，OpenMP 定义 了 一 种 组 合 结构 。 


#pragma omp parallel for 


这 与 parallel AWA for 结构 独立 放置 是 一 致 的 。 


A.4 数据 环境 子 名 


OpenMP 是 一 种 相对 简单 的 API。 在 使 用 OpenMP 时 ， 大 多 数 困 难 源 于 如 何在 线程 间 共 
享 数据 以 及 如 何 实现 数据 初始 化 与 OpenMP 之 间 的 交互 。 本 附录 中 ， 我 们 将 解决 某 些 更 常见 
的 问题 ， 如 果 需 要 完全 理解 OpenMP 相关 的 数据 环境 ， 可 以 阅读 OpenMP 规范 [OMP]。 内 存 
同步 的 细节 在 6.3 节 中 有 讨论 。 


我 们 首先 定义 在 描述 OpenMP 数据 环境 时 所 用 到 的 术语 。 在 一 个 程序 中 ， 变 量 是 一 个 容 


器 ， 该 容器 拥有 一 个 名 称 和 一 个 值 (更 具体 地 说 ， 是 内 存 或 寄存 器 中 的 一 个 存储 位 置 )。 当 程 
序 运行 时 ， 变 量 可 以 读 写 ( 与 仅 能 够 读 取 的 常量 相对 )。 

在 OpenMP 中 ， 绑 定 到 一 个 给 定名 称 的 变量 依赖 于 该 名 称 是 出 现在 并 行 区 域 的 前 面 ， 还 
是 出 现在 并 行 区 域内 ， 抑 或 是 出 现在 并 行 区 域 之 后 。 当 变量 的 声明 在 并 行 区 域 之 前 时 ， 它 默 
认 是 共享 的 ， 并 且 该 名 称 始 终 绑 定 相同 的 变量 。 

但 是 ，OpenMP 包含 一 些 可 以 添加 到 parallel 结构 和 工作 分 挫 结 构 中 以 控制 数据 环境 
的 子 句 。 这 些 子 句 影响 该 名 称 对 应 的 变量 。private (1ist) 子 句 指示 编译 器 为 每 个 线程 创 
建 列表 中 所 包含 变量 的 一 份 私有 ( 或 局 部 ) 副本 。private 列表 中 的 变量 必须 已 经 定义 ， 并且 
绑 定 在 并 行 区 域 之 前 声明 的 共享 变量 。 这 些 新 的 私有 变量 的 初始 值 是 未 定义 的 ， 因 此 它们 需 
显 式 初始 化 。 男 外 ， 在 并 行 区 域 后 ， 出 现在 private 子 句 中 的 名 称 所 绑 定 的 变量 的 值 是 也 
未 定义 的 。 
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例如 ，5.6 节 给 出 了 一 个 简单 地 利用 梯形 规则 进行 积分 的 程序 ， 该 程序 由 一 个 简单 的 主 
循环 组 成 。 在 循环 中 ， 在 x 值 的 变化 范围 内 ， 计 算 相 应 被 积 函 数 的 值 。x 变量 是 一 个 临时 变 
量 集 ， 并 且 用 于 循环 的 每 个 迭代 中 。 因 此 ， 通 过 给 予 每 个 线程 这 个 变量 的 一 个 副本 ， 就 可 以 
消除 该 变量 所 隐 舍 的 依赖 性 。 利 用 private (x) 子 句 就 可 以 完成 这 个 任务 ， 如 图 A-8 Bras 
(后 文 将 讨论 这 个 示例 中 的 reduce FY ). 


#include <stdio.h> 
#include <math.h> 
#include <omp.h> 


int main () { 
int i; 
int num, steps = 1000000; 
double x, pi, step, sum = 0.0; 


step = 1.0/(double) num_steps; 


#pragma omp parallel for private(x) reduction(+:sum) 
for (i=0;i< num steps; i++) 
1 
x = (i*0.5)*step; 
sum += 4.0/(1.0*x*x) ; 


pi = step * sum; 
printf("pi %1f\n",pi); 
return 0; 





A-8 利用 梯形 规则 进行 积分 的 (等 价 于 | 一 4 qx ) 的 C 程序 
01+x° 


其 他 一 些 改变 变量 在 线程 间 共 享 方式 的 最 常用 子 句 包括 以 下 几 个 。 
e firstprivate(1list)。 和 private 一 样 ， 出 现在 列表 中 的 每 个 名 字 ， 都 会 在 每 
个 线程 中 创建 一 个 具有 该 名 字 的 新 的 私有 变量 。 但 是 ， 和 private 不 同 的 是 ， 这 
些 新 创建 的 变量 会 初始 化 ， 初 始 化 的 值 为 该 变量 在 包含 该 frstprivate 子 句 的 结 
构 之 前 的 代码 中 所 具有 的 值 。 这 个 子 句 在 parallel 结构 和 工作 分 摊 结构 中 都 可 以 
使 用 。 
e lastprivate(list). I, list 中 的 每 个 名 字 在 每 个 线程 均 中 创建 相应 的 局 部 
(或 者 私有 ) 变量 。 但 在 这 种 情况 下 ， 最 后 一 个 循环 迭代 中 的 私有 变量 的 值 将 被 复制 
到 出 现在 OpenMP 结构 (包含 该 lastprivate fF) 之 后 的 代码 中 ,该 名 称 对 应 的 
变量 上 。 
变量 通常 只 可 以 出 现在 一 个 数据 子 句 的 列表 中 。 firstprivate 和 lastprivate 除外 ， 
因为 在 很 多 问题 中 ， 很 可 能 一 个 私有 变量 既 需 要 一 个 已 定义 的 初始 化 值 ， 又 需要 将 一 个 数据 
传递 到 OpenMP 结构 后 面 的 代码 中 。 
在 图 A-9 中 提供 了 一 个 使 用 这 些 子 句 的 示例 。 我 们 为 每 个 线程 声明 了 4 个 私有 变量 ， 并 
对 其 中 三 个 变量 进行 值 赋 : n-1, j-2 和 k=0。 在 并 行 循环 之 后 ， 输 出 了 h、3j Ak 的 值 。 
其 中 ， 只 有 变量 k 是 明确 定义 的 。 对 于 每 个 线程 ， 执 行 一 次 循环 迭代 ， 变 量 k 就 增 1。 因 此 ， 
它 记 录 了 每 个 线程 处 理 的 迭代 数量 。 
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#include <stdio.h> 
#include <omp.h> 
#define N 1000 


int main() 


int h, i, j, k; 
h=1; j= 2; k=0; 
#pragma omp parallel for private(h) firstprivate(j,k) \ 


lastprivate(j,k) 
for(is0;i«N;i**) { 
k++; 
j = h + i; //ERROR: h, and therefore j, is undefined 
} 


printf("h = 4d, j = %d, k = %d\n",h, j, k); //ERROR j and h 
//are undefined 





图 A-9 演示 private, firstprivate, lastprivate 子 句 的 使 用 方法 的 C 程序 。 这 个 程序 在 printf 函数 被 调 
用 时 会 出 现 错误 ， 因 为 变量 h 和 j 都 是 未 定义 的 。 反 和 斜 杠 用 来 将 编译 指令 延续 到 下 行 


因为 lastprivate 子 句 ， 被 传递 到 循环 之 外 的 值 是 执行 最 后 一 个 循环 迭代 (BI i=999 
的 循环 迭代 ) 的 线程 的 k 的 值 。h 和 j 的 值 是 未 定义 的 ， 但 它们 未 定义 的 原因 有 所 不 同 。 变 
Ej 未 定义 的 原因 是 ， 在 并 行 循环 中 ， 它 被 赋值 为 一 个 未 初始 化 的 变量 (n) 与 一 个 变量 的 
AINA, ZE n 的 问题 则 更 复杂 些 。 它 被 声明 为 一 个 Private 类 型 的 变量 , 但 在 循环 内 部 
它 的 值 未 改变 。 但 是 ，OpenMP 规定 ， 如 果 一 个 名 字 出 现在 private FAP, WIX OpenMP £i 
构 之 后 的 代码 区 域 中 与 该 名 字 绑 定 的 变量 都 未 定义 。 因 此 ，pazallel for 之 后 的 输出 语句 
H, h 没有 一 个 已 定义 的 值 。 

还 有 一 些 其 他 影响 变量 共享 方式 的 子 句 ， 但 在 本 书 中 没有 使 用 它们 ， 因 此 不 再 讨论 它们 。 

最 后 ， 我 们 要 讨论 的 影响 数据 共享 方式 的 子 句 是 reduction FA], #6 章 已 经 讨论 了 
归 约 。 归 约 是 一 通过 一 个 二 元 、 可 结合 的 运算 符 ， 将 一 个 数据 集合 并 成 为 单个 值 的 操作 。 归 
约 非常 常用 ， 大 多 数 并 行 编程 环境 中 都 有 归 约 实现 。 在 OpenMP 中 ， 归 约 子 句 定义 一 个 变量 
名 列表 和 一 个 二 元 运算 符 。 对 于 列表 中 的 每 个 名 字 ， 创 建 一 个 私有 变量 ， 并 初始 化 为 该 二 元 
运算 符 的 单位 元 素 值 (例如 ， 加 法 运算 的 单位 元 素 值 为 0 )。 每 一 个 线程 对 与 列表 中 名 称 相应 
的 局 部 变量 副本 进行 归 约 操作 。 在 包含 reduction 子 句 的 结构 末尾 ， 把 这 些 局 部 值 合并 到 
该 OpenMP 结构 之 前 的 相应 变量 中 ， 以 产生 单个 值 。 把 这 个 值 赋 给 包含 归 约 操作 的 OpenMP 
结构 之 后 的 代码 区 域 中 的 具有 相同 名 字 的 变量 。 | 

图 A-8 中 给 出 了 一 个 归 约 示例 。 在 这 个 示例 中 , reduction 子 句 被 应 用 于 “+” 运 算 符 ， 
以 计算 数据 总 和 ， 并 将 结果 保留 在 变量 sum 中 。 

尽管 最 常用 的 归 约 是 求 和 和， 但 OpenMP 还 是 在 Fortran 中 为 +、*、-、.AND.、 .OR.、.EQV.、 
.NEQV. MAX, MIN, IAND, IOR 和 IEOR 提供 了 归 约 操作 的 支持 。 在 C 和 CH, OpenMP 
支持 标准 C/C++ 运算 符 *、-、&、|、^、&& 以 及 | | 的 归 约 操作 。C 和 C++ 在 语言 定义 中 
不 包括 大 量 有 意义 的 固有 函数 ， 例 如 “min” 或 “max”。 因 此 ,OpenMP 没有 相应 的 归 约 操作 ; 
如 果 需 要 它们 ， 程 序 员 必 须 自 己 来 编写 对 应 代码 。 在 OpenMP 规范 [OMP] 中 有 关于 OpenMP 
归 约 更 详细 的 描述 。 
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A.5 OpenMP 运行 时 库 


应 该 尽 可 能 利用 编译 制导 指令 来 表示 OpenMP 语法 。 然 而 ， 某 些 功能 只 能 利用 运行 时 库 
函数 来 实现 。 在 运行 时 库 中 ， 最 常用 的 一 些 函 数 如 下 所 示 。 
e omp set num threads(0， 该 函数 具有 一 个 整 型 参数 ， 操 作 系统 会 根据 这 一 数值 在 
265 随后 的 并 行 区 域 中 创建 相应 数目 的 线程 。 
omp get num threads(), 该 整 型 函数 返回 当前 线程 组 中 的 实际 线程 数目 。 
omp_get_thread_num0， 该 整 型 函数 返回 线程 的 ID ， 线 程 卫 的 取 值 范围 为 0 到 
线程 的 总 数 减 1. ID 为 0 的 线程 是 主线 程 。 
e 锁 函 数 进行 锁 的 创建 、 使 用 和 销毁 。 这 些 将 在 后 面 的 同步 结构 中 描述 。 
在 图 A-10 中 ， 给 出 了 关于 这 些 函 数 使 用 方式 的 一 个 简单 示例 。 该 程序 在 标准 输出 上 输出 
了 线程 的 ID 和 线程 的 数目 。 


#include <stdio.h> 
#include <omp.h> 


int main() { 
int id, numb; 


omp.set num threads(3); 


#pragma omp parallel private (id, numb) 
1 


id = omp.get thread num(); 
numb = omp.get, num threads(); 
printf(" I am thread %d out of %d \n",id,numb) ; 





图 A-10 ”常用 运行 时 库 函 数 使 用 的 C 程序 
图 A-10 中 程序 的 输出 将 类 似 于 下 面 的 形式 : 


I am thread 2 out of 3 


I am thread 0 out of 3 
I am thread i out of 3 


输出 的 记录 将 是 完整 的 并 且 非 重合 的 ， 因 为 OpenMP 要 求 IO 库 是 线程 级 安全 的 。 但 是 ， 
哪 一 个 线程 在 什么 时 间 输 出 它 的 记录 没有 指定 ， 因 此 输出 记录 的 任何 有 效 交 错 都 有 可 能 发 生 。 


A.6 同步 


许多 OpenMP 程序 仅 使 用 parallel 和 parallel for (在 Fortran 中 是 parallel 
do) 结构 来 编写 就 足够 了 。 但 是 ， 存 在 一 些 算法 需要 对 变量 共享 方式 进行 更 小 心地 控制 。 当 
多 个 线程 都 要 读 和 写 共享 数据 时 ， 程 序 员 必须 确保 这 些 线程 之 间 不 相互 干扰 ， 以 使 得 线程 无 
266) 论 怎样 调度 ， 程 序 都 返回 相同 的 结果 。 对 于 一 个 多 线程 程序 ， 这 是 至 关 重 要 的 ， 任 何 语义 上 
允许 的 指令 干扰 都 有 可 能 发 生 。 因 此 ， 程 序 员 必 须 管理 对 共享 变量 的 读 和 写 ， 以 确保 线程 读 

取 正 确 的 数值 ， 多 个 线程 不 在 同一 时 间 写 同一 个 变量 。 
同步 是 管理 共享 资源 的 方法 ， 用 于 实现 线程 无 论 怎样 调度 ， 读 和 写 都 可 以 以 正确 的 顺序 
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KE, 6.3 节 对 同步 的 概念 进行 了 详细 讨论 。 在 此 将 主要 介绍 OpenMP 中 同步 的 语法 和 使 用 
Ji Xe 
回顾 本 章节 前 面 图 A-5 中 的 基于 循环 的 程序 。 我 们 使 用 了 该 示例 来 介绍 OpenMP 中 的 工 
作 分 摊 法 ， 假 设 结果 (res) 组 合 的 计算 不 占用 太 多 的 时 间 ， 并 且 必 须 以 串 行 顺序 发 生 。 因 
此 ， 可 以 将 中 间 结 果 存 储 在 一 个 共享 数组 中 并 在 后 面 (一 个 串 行 区 域 中 ) 将 结果 组 合 为 最 终 
的 答案 。 
但 是 ， 在 通常 情况 下 ， 只 要 累加 不 相互 影响 , big_comp () 的 结果 可 以 以 任意 顺序 累加 。 
为 了 使 得 问题 更 有 趣 ， 假 设 combine() 例 程 和 big comp() 例 程 都 是 耗 时 的 ， 并 且 执 行 
时 间 是 不 可 预测 的 且 变 化 范围 较 大 。 因 此 ， 我 们 需要 将 combine () 函数 放置 到 并 行 区 域 中 ， 
并 且 使 用 同步 结构 以 确保 对 combine () 函数 的 并 行 调用 不 相互 干扰 。 
OpenMP 中 主要 的 同步 结构 如 下 所 示 。 
e flush， 它 定义 一 个 同步 点 ， 在 该 点 ， 内 存 一 致 性 强制 执行 。 这 是 比较 复杂 的 。 现 代 
计算 机 基本 上 都 会 把 数值 存放 在 寄存 器 或 缓冲 区 中 ， 但 不 能 保证 在 任何 时 刻 都 与 计 
算 机 内 存 中 的 内 容 一 致 。 有 些 内 存 一 致 性 协议 保证 所 有 处 理 器 最 终 看 到 的 是 单个 地 
址 空间 ， 但 不 保证 内 存 引 用 在 任意 时 刻 都 能 及 时 更 新 并 保持 一 致 。flush 的 语法 如 下 
所 示 。 


#pragma omp flush [(list)] 


e 其 中 ，1ist 是 一 个 由 分 号 隅 离 的 需要 刷新 的 变量 列表 。 如 果 该 列表 省 略 ， 则 所 有 对 
调用 线程 可 见 的 变量 都 将 刷新 。 程 序 员 很 少 需要 显 式 地 调用 ftush， 因 为 在 大 多 数 
需要 它 的 地 方 ， 它 会 目 动 地 插入 。 通 常 ， 程 序 员 只 需要 构建 他 们 的 低级 同步 原 语 就 
够 了 。 

e critical， 为 互 太 现象 创建 一 个 临界 区 。 也 就 是 说 ， 同 一 时 刻 只 能 有 一 个 线程 能 
执行 临界 区 中 的 结构 块 代码 。 其 他 线程 将 在 该 结构 的 项 部 等 待 。 临 界 区 的 语法 如 下 
所 示 。 


#pragma omp critical [(name)] 
{ a structured block } 


e HP, name 是 一 个 标识 符 ， 用 于 支持 临界 区 间 的 集合 不 相交 性 。 临 界 区 在 其 和 人口 和 
出 口 处 隐 含 了 flush 调用 。 

e barrier， 提 供 一 个 同步 点 ,线程 到 达 该 点 后 将 等 待 ， 直 到 线程 组 中 的 每 一 个 成 员 都 
到 达 ， 线 程 才 会 继续 执行 。barrier 的 语法 如 下 所 示 。 


#pragma omp barrier 


可 以 显 式 地 添加 barrier， 但 是 它 也 会 在 需要 它 的 地 方 隐 式 地 调用 ( 例如， 在 并 行 结构 
或 者 工作 分 摊 结 构 的 末尾 )。barrier 中 隐 含 了 一 个 flush. 

第 6 章 进一步 讨论 了 临界 区 、barrier 和 flush. 

回 到 图 A-5 中 的 示例 ， 如 果 增 加 一 个 互 斥 操作 ， 就 能 够 保证 在 并 行 循环 内 部 安全 地 执行 
combine () 例 程 的 调用 。 我 们 将 采用 critical 结构 ， 如 图 A-11 所 示 。 需要 注意 的 是 ， 
我 们 必须 为 每 个 线程 创建 变量 res 的 一 个 私有 副本 ， 以 避免 循环 迭代 间 的 访问 冲突 。 
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#include <stdio.h> 

#include <omp.h> 

#define N 1000 

extern void combine(double,double) ; 
extern double big_comp(int) ; 


int main() { 
int ii 
double answer, res; 
answer = 0.0; 
#pragma omp parallel for private (res) 
for (i1=0;i<N;i++){ 
res = big comp(i); 
#pragma omp critical 
combine(answer,res); 


printf("%f\n", answer); 





图 A-11 图 A-5 中 的 程序 的 并 行 版 本 。 但 是 ， 在 这 种 情形 中 ， 假 设 可 以 以 任意 顺序 调用 combine() 函数 ， 
只 要 保证 同一 时 刻 只 有 一 个 线程 运行 这 个 函数 就 可 以 。 程 序 中 利用 了 critical 结构 来 保证 这 一 需求 


对 于 大 多 数 程序 员 来 说 ，OpenMP 中 的 高 层 同 步 结 构 已 经 够 用 了 。 但 是 ， 也 存在 高 层 同 
步 结构 无 法 使 用 的 情况 。 两 种 常见 的 情况 如 下 所 示 。 

e 问题 中 要 求 的 同步 协议 不 能 通过 OpenMP 的 高 层 同步 结构 所 表达 。 

e OpenMP 的 高 层 同步 结构 所 产生 的 并 行 开销 太 大 。 

为 了 解决 这 些 问题 ，OpenMP 运行 时 库 包 含 一 些 提 供 锁 功能 的 低级 同步 函数 。 锁 函数 
的 原型 定义 在 omp.h 文件 中 。“ 锁 ”使 用 了 一 种 不 透明 的 数据 类 型 omp lock t, omp_ 
lock t 同样 定义 在 omp.h 文件 中 。 一些 关键 的 函数 如 下 所 示 。 

e void omp init lock(omp lock t *lock)， 用 于 初始 化 锁 。 

e void omp destroy lock(omp lock t xlock)， 用 于 销毁 锁 ， 并 释放 与 该 锁 

相关 的 所 有 内 存 。 

e void omp set lock(omp lock t *lock)， 用 于 设置 或 获取 锁 。 如 果 锁 是 空 
闲 的 ， 线 程 调用 omp_set_lock() 后 ， 将 获得 锁 ， 并 继续 执行 。 如 果 锁 被 另外 一 个 
线程 所 拥有 ， 线 程 调用 omp set lock() 后 ,将 等 待 ， 直 到 锁 可 用 为 止 。 
void omp unset lock(omp lock 七 *lock)， 用 于 解除 或 释放 锁 ， 以 便 其 他 
线程 能 够 获取 它 。 

e void omp test lock(omp lock t *lock), ， 用 于 测试 或 者 查询 锁 是 否 可 用 。 

如 果 锁 可 用 ， 则 程序 获取 锁 并 继续 执行 。 锁 的 测试 和 获取 是 自动 完成 的 。 相 反 ， 如 果 
锁 不 可 用 ,该 明 数 将 返回 false(nonzero)， 并 且 主 调 线程 继续 执行 。 这 个 函数 使 得 线程 
在 等 待 锁 的 同时 还 能 够 做 一 些 有 价值 的 工作 。 

锁 困 数 保证 了 锁 变 量 本 身 在 线程 间 一 致 地 更 新 ， 但 并 不 实现 对 其 他 变量 的 隐 含 的 flush 操 
作 。 因 此 ， 使 用 锁 的 程序 员 必 须 按 需 显 式 地 调用 ftush。 图 A-12 是 一 个 使 用 OpenMP 锁 的 示 
例 程序 。 该 程序 在 程序 的 开始 部 位 声明 并 初始 化 两 个 锁 变 量 。 因 为 在 并 行 区 域 之 前 声明 ， 所 
以 锁 变 量 被 所 有 的 线程 所 共享 。 在 并 行 区 域内 ， 第 一 个 锁 用 于 确保 在 同一 时 刻 仅 有 一 个 线程 
问 标 准 输 出 上 输出 消息 。 该 锁 用 于 确保 每 个 线程 中 的 两 个 printf 语句 连续 执行 ， 不 被 其 
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他 线程 中 的 printf 语句 穿插 干扰 。 第 二 个 锁 用 于 确保 在 同一 时 刻 仅 有 一 个 线程 执行 go_ 
for it() 函数 ,通过 使 用 omp test lock() 函数 ,实现 线程 在 等 待 锁 的 同时 能 够 做 一 
些 有 价值 的 工作 。 并 行 区 域 执 行 完毕 后 ， 通 过 调用 omp lock destroy() 函数 来 释放 与 
锁 相 关 的 内 存 。 


#include <stdio.h> 
#include <omp.h> 


extern void do_something_else(int); extern void go_for_it(int); 


int main() { 
omp_lock_t lcki, lck2; int id; 


omp. init lock(£lcki1); 
omp. init, lock(&1lck2); 


#pragma omp parallel shared(lcki1, lck2) private(id) 
1 


id = omp get thread num(); 


omp set lock(&lcki); 

printf("thread %d has the lock Wn", id); 
printf("thread Ad ready to release the lock Wn", id); 
omp_unset_lock(&lck1) ; 


while (! omp_test_lock(&lck2)) { 
do something else(id); // do something useful while waiting 
// for the lock 
ee // Thread has the lock 
omp_unset_lock(&lck2) ; 


omp_destroy_lock(&1lck1) ; 
omp_destroy_lock(&lck2) ; 





A-12 OpenMP 中 锁 函 数 使 用 方式 的 代码 示例 


A.7 schedule +4 


基于 循环 的 并 行 算法 的 性 能 关键 在 于 将 循环 的 迭代 合理 地 分 配 到 所 有 线程 ， 使 得 线程 间 达 
到 负载 平衡 。OpenMP 编译 器 试图 为 程序 员 自 动 化 地 实现 这 一 点 。 尽 管 编译 器 擅长 管理 数据 依 
赖 性 ， 并 能 进行 高 效 的 通用 优化 ， 但 是 它们 不 善于 理解 特定 算法 的 访 存 模式 和 不 同 循环 迭代 的 
执行 时 间 的 差别 。 为 了 获得 最 佳 性 能 ， 程 序 员 需 要 告诉 编译 器 如 何 将 循环 迭代 划分 给 每 个 线程 。 

可 以 通过 在 for 或 do 工作 分 挫 结 构 中 添加 一 个 schedule 子 句 来 实现 。 在 All Fortran 
H, schedule 子 句 形式 如 下 。 


schedule( sched [,chunk]) 


H, sched AW static, dynamic, guided M# runtime 中 任意 一 个 ，chunk 
是 一 个 可 选 的 整 型 参数 。 | 
e schedule (static [,chunk]), 循环 迭代 空间 被 划分 为 大 小 为 chunk 的 块 。 如 
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果 chunk 省 略 ， 则 块 大 小 是 使 得 每 个 线程 拥有 近似 相等 大 小 的 块 的 对 应 数值 。 块 以 
轮 询 方式 被 分 发 给 线程 组 。 例 如 ， 当 线程 数 为 3， 块 的 大 小 为 2 时 ，12 个 循环 迭代 将 
创建 为 6 个 块 ， 它 们 包含 的 循环 迭代 分 别 是 (0, 1)、(2, 3)、(4，5)、(6，7)、(8，9) 和 
(10，11)， 块 分 配给 线程 的 方式 是 : [(0, 1), (6, 7)] 分 配给 0 号 线程 ，[(2，3), (8, 9)] 
分 配给 1 SA, [(4, 5), (10, 11)] 分 配给 2 号 线程 。 
schedule (dynamic [,chunk]), ， 循 环 和 迭代 空间 被 划分 为 大 小 为 chunk HER. 
如 果 chunk 省 略 ， 则 块 的 大 小 为 1。 最 初 给 每 个 线程 都 分 配 一 个 循环 迭代 块 来 处 理 。 
剩余 的 块 放置 在 一 个 队列 中 。 当 处 理 完 当前 块 之 后 ， 线 程 就 从 队列 中 取出 接 下 来 需要 
处 理 的 循环 迭代 块 。 这 样 持续 下 去 ， 直 到 所 有 的 循环 迭代 块 处 理 完 。 
schedule (guided [,chunk])， 是 对 动态 调度 的 一 种 优化 版 本 ， 以 降低 调度 开 
销 。 与 动态 调度 一 样 ， 循 环 迭 代 被 划分 为 一 些 块 ， 初 始 状态 下 ， 给 每 个 线程 分 配 一 个 
迭代 块 ， 当 完成 分 配 的 块 后 ， 线 程 就 再 接收 一 个 块 来 处 理 。 区 别 在 于 块 的 大 小 方面 : 
第 一 块 的 大 小 是 与 实现 相关 的 ， 但 仍 相 对 较 大 ; 后 续 块 的 大 小 迅速 下 降 ， 最 终 降 到 
chunk 所 指定 的 值 。 这 种 方法 拥有 动态 调度 的 优点 ， 由 于 起 始 块 较 大 ， 运 行 时 的 调度 
决策 数目 相对 减 小 ， 因 此 并 行 开销 极 大 降低 。 
e schedule (runtime), runtime 调度 规定 ， 实 际 的 调度 方法 和 循环 迭代 块 的 大 小 
取决 于 环境 变量 OMP SCHEDULED 的 值 。 这 使 得 一 个 可 执行 程序 可 以 实现 不 同 的 调 
度 方 法 ， 而 不 用 在 每 次 调度 试验 中 重新 编译 代码 。 
参照 图 A-13 中 基于 循环 的 程序 。 因 为 schedule TAE Fortran 和 C 语言 中 实现 是 相 
同 的 ， 所 以 我 们 只 讨论 在 C 中 的 情况 。 如 果 当 程序 运行 时 ， 不 同 循环 迭代 的 运行 时 间 不 相同 ， 
而 且 是 不 可 预测 ， 则 静态 调度 法 可 能 不 够 高 效 。 这 时 ， 我 们 会 使 用 动态 调度 法 。 然 而 ， 调 度 
开销 是 一 个 严重 的 问题 ， 因 此 为 了 使 调度 决策 的 数目 最 小 ， 我 们 将 每 个 调度 块 的 大 小 设置 为 
10 个 循环 迭代 。 然 而 ， 并 不 存在 明确 的 规律 来 确定 最 优 的 调度 方法 和 块 大 小 ，OpenMP 程序 
员 通 常 需要 试验 各 种 调度 方法 和 块 的 大 小 ， 直 到 获得 最 优 值 为 止 。 例 如 ， 图 A-13 中 的 并 行 循 
环 程序 中 ， 如 果 和 迭代 块 设置 得 足够 小 ， 能 使 得 迭代 工作 均匀 地 分 布 于 线程 间 ， 则 静态 调度 方 
法 同样 也 可 以 取得 很 高 的 效率 。 


#include <stdio.h> 

#include <omp.h> 

#define N 1000 

extern void combine(double,double) ; 
extern double big comp(int); 


int main() { 
int à; 
double answer, res; 
answer = 0.0; 
#pragma omp parallel for private(res) schedule(dynamic,10) 
for (i=0;i<N;i++){ 
res = big comp(i); 
*pragma omp critical 
combine(answer,res); 


) 
printf("%f\n", answer); 





图 A-13 A-11 中 程序 的 并 行 版 本 ， 并 做 了 一 些 更 改 ， 以 演示 schedule 子 句 的 使 用 
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A8 程序 语言 的 其 余部 分 


本 附录 仅 讨论 了 本 书 中 所 涉及 的 OpenMP 特征 。 尽 管 已 经 涵盖 了 OpenMP 大 部 分 最 常 
用 的 结构 ,但 是 对 使 用 OpenMP 感 兴 趣 的 程序 员 还 应 完整 地 阅读 OpenMP 规范 [OMP]。 所 
有 API 的 定义 仅 有 50 多 页 。OpenMP 规范 还 包括 超过 25 页 的 程序 示例 。[CDK-*00] 是 介绍 
OpenMP 语法 的 书籍 , [Mat03] 中 提供 了 对 OpenMP 的 抽象 的 描述 和 一 些 关于 未 来 方向 的 想法 。 
OpenMP 的 相关 文献 正在 逐渐 地 增加 ; 各 种 OpenMP 研讨 会 [VJKT00、EV01、EWO01] 的 会 
议 中 也 提出 了 大 量 的 OpenMP 应 用 。 
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Patterns for Parallel Programming 


MPI 简介 





MPI ( Message Passing Interface ) 是 分 布 式 内 存 并 行 计算 机 的 标准 编程 环境 。MPI 的 核 
心 构造 是 消息 传递 : 一 个 进程 -将 信息 打包 成 为 一 条 消息 然后 把 这 条 消息 发 送 到 目标 进程 。 但 
MPI 远 远 不 仅仅 是 简单 消息 传递 ，MPI 还 包含 有 很 多 用 于 同步 进程 、 将 分 布 在 一 系列 进程 中 
的 数字 相 加 ， 将 数据 分 发 到 一 系列 进程 中 等 其 他 操作 的 例 程 。 

为 了 提供 一 个 能 够 在 集群 、MPP 其 至 在 共享 内 存 计算 机 运行 的 消息 传递 环境 ，MPI 在 20 
世纪 90 年 代 早期 提出 。MPI 以 库 的 形式 发 布 ， 官 方 规范 定义 为 C 和 Fortran WHE (BEH 
他 语言 的 绑 定 也 有 和 定义 )。 现 在 绝 大 多 数 MPI 程序 员 使 用 的 是 1.1 版 本 的 MPI (于 1995 年 发 
布 )。 升 级 后 的 规范 MPI 2.0 于 1997 年 发 布 ， 其 中 包含 并 行 TO、 动 态 进 程 管理 、 单 边 通信 和 
其 他 的 新 特性 。 但 是 由 于 它 对 原 有 的 规范 增加 了 复杂 的 内 容 ， 所 以 即便 6 年 之 后 ， 只 有 屈指 
可 数 的 MPI 实现 支持 MPI 2.0。 因 此 ， 这 里 讨论 的 是 MPI 1.1. 

现在 有 几 种 常见 的 MPI 实现。 最 常见 的 是 LAM/MPI [LAM] 和 MPICH [MPI]. 这 两 者 
都 可 以 免费 下 载 并 通过 它们 附带 的 说 明 简 单 地 安装 。 它 们 支持 非常 多 种 类 的 并 行 计 算 机 ， 像 
Linux 集群 、NUMA 计算 机 和 SMP, 


B.1 概念 


传递 消息 的 基本 概念 看 上 去 很 简单 : 一 个 进程 发 送 一 条 消息 ， 另 一 个 进程 接收 这 条 消息 。 
但 是 挖掘 得 更 深 一 些 ， 消 息 传递 背后 的 细节 会 非常 复杂 : 如 何在 系统 中 缓冲 消息 ?一 个 进程 
在 接收 或 发 送 消息 时 还 能 做 其 他 有 用 的 工作 吗 ? 怎样 使 得 一 条 消息 被 标识 ， 这 样 它 发 送 后 始 
终 可 以 匹配 到 目的 接收 者 ? i 

MPI 的 成 功 就 是 因为 它 很 好 地 解决 了 这 些 〈 和 其 他 的 ) 问题 。 方 法 是 基于 两 个 MPI 的 核 
心 要 素 : 进程 组 和 通信 上 下 文 。 一 个 进程 组 就 是 计算 中 的 进程 集合 。 在 MPI 中 ， 当 程序 启动 
的 时 候 ， 所 有 参与 一 个 计算 的 进程 同时 启动 ， 它 们 属于 一 组 。 但 是 随 着 计算 的 进行 ， 程 序 员 
能 够 将 这 些 进程 分 成 更 小 的 子 组 ， 然 后 精细 地 控制 这 些 组 的 交互 。 

通信 上 下 文 为 组 织 相 关 通 信和 集 提供 了 一 种 机 制 。 在 任何 消息 传递 系统 中 ， 消 息 必 须 是 标 
记 的 ， 这样 消息 就 能 够 送 到 它们 的 目的 地 上 。 在 MPI 中 消息 标签 有 发 送 方 ID 、 接 收 方 ID 和 
一 个 整数 标签 组 成 。receive 语句 包括 了 指示 源 和 标签 的 参数 ， 其 中 两 个 参数 中 的 每 一 个 或 者 
两 个 参数 都 可 能 是 通配符 。 所 以 在 进程 i 中 执行 一 条 receive 语句 的 结果 是 传递 一 个 目的 是 
进程 i 日 类 型 和 源 都 与 receive 语句 相 匹 配 的 消息 。 

虽然 简单 ， 但 是 标识 一 条 消息 只 靠 源 、 目 的 和 标签 在 复杂 的 应 用 程序 中 是 不 够 的 ， 特 别 
是 那些 包含 库 或 者 从 其 他 程序 中 重用 功能 的 程序 。 通 常情 况 下 ， 应 用 程序 程序 员 不 知道 这 些 
代码 中 的 细节 ， 如 果 在 这 些 库 中 调用 了 MPI， 那 么 就 可 能 出 现 应 用 程序 中 有 些 消 息 和 库 函 数 


© 在 MPI 中 UE 是 进程 。 
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中 的 消息 标签 、 目 标 ID、 源 ID 恰好 相同 的 情况 。 这 可 能 会 导致 在 库 消息 被 传递 到 应 用 程序 
代码 或 者 应 用 程序 代码 传递 消息 到 库 的 时 候 程序 出 错 。 处 理 这 种 问题 的 一 种 方法 是 让 库 的 作 
者 指定 用 户 必须 避免 使 用 的 保留 标签 ， 已 证 明 这 种 方法 是 笨拙 的 、 容 易 出 错 的 ， 因 为 它 要 求 
编码 者 仔细 阅读 和 遵循 文档 中 的 说 明 。 

MPI 的 解决 方案 是 基于 通信 上 下 文 s 的 概念 。 每 一 个 发 送 ( 和 它 的 最 终 消息 ) 和 接收 都 属 
于 一 个 通信 上 下 文 ， 而 且 只 有 那些 共享 一 个 通信 上 下 文 的 通信 事件 可 以 匹配 。 因 此 即便 有 些 
消息 共享 一 个 源 、 一 个 目标 、 和 一 个 标签 ， 只 要 它们 有 不 同 的 上 下 文 ， 它 们 不 会 和 其 他 消息 
混淆 。 消 息 上 下 文 会 动态 生成 并 且 保 证 它 的 独特 性 。 

dE MPI 中 ， 进 程 组 和 通信 上 下 文 组 合 到 一 个 叫做 通信 域 的 对 象 中 。 除 了 一 些 非常 少 的 
特例 外 ，MPI 中 的 函数 包括 通信 域 的 一 个 引用 。 当 程序 启动 时 ， 运 行 时 系统 会 创建 一 个 叫做 
MPI COMM WORLD 的 公用 通信 域 。 

在 大 多 数 情况 下 ，MPI 程序 员 仅 仅 需 要 一 个 通信 域 ， 也 就 是 MPI_COMM WORLD。 创 建 
和 操作 一 个 通信 域 是 简单 的 ， 只 有 那些 写 可 重用 软件 组 件 的 程序 员 需 要 去 做 这 些 事 。 因 此 ， 
管理 通信 域 不 在 本 书 的 讨论 范围 内 。 


B.2 开始 


因为 MPI 标准 没有 规定 一 个 工作 怎样 开始 ， 所 以 不 同 的 MPI 在 不 同情 形 下 的 实现 之 间 有 
着 巨大 的 差别 〈 比 如， 作业 是 以 交互 方式 启动 还 是 由 批 调度 程序 启动 )。 对 于 使 用 MPI 1.1 以 
交互 方式 启动 作业 ， 最 常用 的 方法 是 在 获取 配置 文件 中 列表 的 节点 处 启动 所 有 与 MPI 相关 的 
进程 。 所 有 进程 执行 相同 的 程序 。 完 成 这 个 任务 的 命令 通常 叫做 mpirun， 其 使 用 程序 名 作 
为 参数 。 遗 憾 的 是 ，MPI 标准 没有 定义 mpirun 的 接口 ， 因 此 它 会 因为 MPI 的 实现 不 同 而 有 
差异 。 这 些 细节 可 以 在 每 个 实现 的 文档 中 找到 [LAM.MPI]。 

所 有 MPI 程序 都 有 一 些 基 本 元 素 。 考 虑 图 B-1 中 的 程序 。 


#include <stdio.h> 
int main(int argc, char **argv) { 


printf("\n Never miss a good chance to shut up \n"); 





图 B-1 将 简单 字符 串 标准 输出 到 标准 输出 的 程序 


我 们 在 将 这 个 程序 修改 为 多 进程 执行 的 并 行程 序 的 过 程 中 将 探讨 MPI 所 必要 的 因素 。 首 
先 ，MPI 的 函数 原型 需要 和 定义。 这 个 工作 在 MPI 的 头 文件 中 完成 。 


#include <mpi.h> 


IKA, MPI 环境 必须 初始 化 。 作 为 初始 化 的 一 部 分 ， 创 建 被 全 部 进程 共享 的 通信 域 ， 也 
就 是 ， 先 前 提 到 的 MPI COMM WORLD: 


MPI_Init(&argc, &kargv); 


命令 行 参数 被 传递 到 MPI Init, 这样 MPI 环境 就 能 够 通过 添加 程序 自己 的 命令 行 参数 ”[5735 


© Zipcode [SSD'94] 是 唯一 早 于 MPI 上 且 有 独立 的 通信 上 下 文 的 消息 传递 库 。 
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( 对 于 程序 员 是 透明 的 ) 影响 程序 的 行为 。 这 个 函数 返回 一 个 用 于 表明 函数 调用 成 功 或 者 失 
败 的 整 型 状态 标志 。 除 了 少数 以 外 ， 所 有 MPI 函数 都 返回 这 个 标志 。 这 个 标志 可 能 取 的 值 在 
MPI 头 文件 (mpi .h ) 中 描述 。 | 

虽然 没有 要 求 ， 但 是 几乎 每 一 个 MPI 程序 都 使 用 进程 组 中 的 进程 数量 和 各 个 进程 在 组 
中 的 序号 "来 指导 计算 ， 如 5.4 节 所 述 。 这 些 信息 可 以 通过 调用 MPI_Comm size 和 MPI_ 
Comm rank KARÍ- 


int num_procs; // the number of processes in the group 
int ID;// a unique identifier ranging from O to (num procs-1) 


MPI Comm size(MPI COMM WORLD, &num procs); 
MPI Comm rank(MPI COMM WORLD, &ID); 


当 MPI 程序 结束 运行 时 ， 整 个 环境 需要 显 式 地 关闭 。 这 个 将 会 由 下 面 的 函数 完成 : 
MPI_Finalize(); 


在 很 简单 的 程序 中 使 用 这 些 元 素 ， 我 们 得 到 了 并 行程 序 ( 见 图 B-2 )。 


#include <stdio.h> 
#include "mpi.h" 


int main(int argc, char **argv) { 
int num_procs; // the number of processes in the group 
int ID; // a unique identifier ranging from O to (num procs-1) 


if (MPI_Init(&argce, &argv) != MPI SUCCESS) { 
// print error message and exit 


MPI Comm size (MPI, COMM WORLD, &num_procs); 
MPI Comm rank (MPI, COMM WORLD, &ID); 
printf("\n Never miss a good chance to shut up Ad \n",ID); 


MPI Finalize(); 





图 B-2 每 个 进程 都 标准 输出 简单 字符 串 的 并 行程 序 


如 果 在 程序 中 的 任意 一 点 检测 到 一 个 致命 错误 ， 程 序 可 能 会 有 关闭 。 如 果 这 一 点 没有 说 
慎 地 完成 ， 那 么 进程 可 能 会 出 现 停留 在 一 些 节 点 的 情况 。 这 些 进 程 称 作 孤 进 程 ， 原 则 上 ， 它 
们 可 能 会 “永恒 ”地 等 待 着 与 组 内 的 其 他 进程 交互 。 下 面 的 函数 告诉 MPI 运行 时 环境 去 尽 可 
能 地 尝试 关闭 MPI 程序 中 的 所 有 进程 : 


MPI Abort(); 


B.3 ”基本 点 对 点 消息 传递 


MPI 中 的 点 对 点 消息 传递 例 程 是 从 一 个 进程 传递 消息 到 另 一 个 进程 。 在 MPI 1.1 针对 点 
对 点 通信 有 超过 21 个 函数 。 大 量 的 点 对 点 通信 函数 不 仅 提 供 了 优化 通信 缓冲 区 所 需要 的 控制 
手段 ， 还 规范 了 怎样 通信 及 计算 的 重 伙 。 


O 序号 是 指 范围 从 0 到 进程 数量 减 一 的 整数 ， 它 用 来 表明 每 个 进程 在 进程 组 中 的 位 置 。 
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在 MPI 1.1 中 ,最 常用 的 消息 传递 函数 是 在 图 B-3 中 定义 的 阻塞 发 送 /接收 函数 。MPI_ 
Send() 函数 在 将 缓冲 区 (buff) 传递 给 系统 同时 能 够 安全 重用 的 时 候 返回 。 在 接收 方 ， 
MPI Recv() 函数 在 当 缓冲 区 (buff) 接收 到 消息 并 准备 使 用 的 时 候 返 回 。 


int MPI_Send (buff, count, MPI_type, dest, tag, Comm) ; 


int MPI Recv (buff, count, MPI type, source, tag, Comm, &stat); 


buff 


int count 


Mpi type 


int source 


int dest 


int tag 


MPI Status stat 
MPI COMM Comm 





指向 缓冲 区 的 指针 ， 其 类 型 与 MPI type HRA 
buff 中 指定 类 型 的 项 数 

buff 中 项 的 类 型 ， 最 常用 的 类 型 是 MPI_DOUBLE、 
MPI INT, MPI LONG f? MPI FLOAT 

发 送 消息 的 进程 序号 。 常 数 MPI ANY SOURCE 能 被 
MPI Recv 使 用 以 接收 任意 源 的 消息 

接收 消息 的 进程 的 序号 

通信 中 一 个 用 于 标识 消息 的 整数 。 常 数 MPI ANY TAG 
是 可 以 匹配 所 有 标记 值 的 通配符 

在 接收 消息 时 一 个 保存 消息 状态 的 结构 

MPI 的 通信 域 ， 通 常 为 默认 的 MPI_COMM WORLD 


B-3 CHA M MPI 1.1 的 标准 阻塞 点 对 点 通信 例 程 


MPI Status 数据 类 型 是 在 mpi .h 中 定义 的 。 这 个 状态 变量 用 来 刻画 一 条 接收 到 的 消 
息 。 如 果 MPI ANY TAG 在 MPI Recv() 中 用 到 ,例如 对 于 这 条 消息 真实 的 标记 将 从 状态 变 
量 中 抽取 为 status .MPI TAG, 

在 图 B-4 中 的 程序 提供 了 一 个 如 何 使 用 基本 的 点 对 点 消息 传递 函数 的 样 例 。 在 这 个 程序 
中 ,一 条 消息 往返 于 两 个 进程 。 这 个 程序 RE “ERR” EJF) 经 常 被 用 做 并 行 计算 机 


中 通信 系统 性 能 的 基准 。 


#include <stdio.h> // standard I/O include file 

#include “memory.h" // standard include file with function 
// prototypes for memory management 

#include "mpi.h" // MPI include file 


int main(int argc, char **argv) { 
int Tagi = 1; int Tag2 = 2; // message tags 
int num_procs; // the number of processes in the group 


int ID; // a unique identifier ranging from 0 to (num_procs-1) 
int buffer_count = 100; // number of items in message to bounce 
long *buffer; // buffer to bounce between processes 

int i; 

MPI_Status stat; // MPI status parameter 


MPI_Init(&arge,fargv); // Initialize MPI environment 
MPI_Comm_rank(MPI_COMM_WORLD, &ID); // Find Rank of this 
` // process in the group 


图 B-4 C 语 言 下 使 用 堵塞 点 对 点 通信 函数 “连接 ”两 个 进程 的 MPI 1.1 程序 
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MPI Comm size (MPI COMM WORLD, &num procs); // Find number of 
// processes in the group 


if (num procs != 2) MPI Abort(MPI COMM WORLD, 1); 


buffer - (long *)malloc(buffer count* sizeof(long)); 


for (i20; i«buffer count; i++) // fill buffer with some values 
buffer[i] = (long) i; 


if (ID == 0) ( 
MPI_Send (buffer, buffer_count, MPI_LONG, 1, Tagi, 
MPI_COMM_WORLD) ; 
MPI_Recv (buffer, buffer_count, MPI_LONG, 1, 
Tag2, MPI_COMM_WORLD, &stat) ; 
} 
else { ; 
MPI_Recv (buffer, buffer_count, MPI_LONG, 0, Tagi, 
MPI_COMM_WORLD,&stat) ; 
MPI_Send (buffer, buffer_count, MPI_LONG, 0, Tag2, 
MPI_COMM_WORLD) ; 
} 


MPI_Finalize(); 
} 





Al B-4 (2) 


这 个 程序 以 常见 的 头 文件 和 声明 开始 。 在 程序 中 ,初始化 MPI 作为 一 开始 的 可 执行 语 
句 。 其 实 这 个 工作 是 可 以 在 后 面 做 的 ， 关于 初始 化 语句 的 唯一 硬性 要 求 就 是 初始 化 必须 在 调 
用 MPI 例 程 前 发 生 。 接 着 ,我 们 决定 每 个 进程 的 序号 和 进程 组 的 大 小 。 为 了 让 整个 程序 短小 
精怪， 我 们 假设 在 进程 组 中 只 有 两 个 进程 。 接 着 为 缓冲 区 分 配 内 存 。 

整个 通信 将 会 自动 变 成 两 部 分 。 在 序号 为 0 的 进程 中 ,我们 发 送 然后 接收 消息 ， 在 其 他 
进程 中 ， 我 们 接收 然后 发 送 消息 。 用 这 种 方法 〈 一 个 进程 发 送 然 后 接收 消息 ， 而 另 一 个 进程 
接收 然后 发 送 消息 ) 匹配 对 阻塞 发 送 消息 机 制 和 阻塞 大 量 消 息 是 非常 重要 的 。 为 了 彻底 理解 
这 一 点 ， 考 虑 以 下 问题 : 有 两 个 进程 (ID 0 和 ID 1) 都 需要 发 送 消息 与 接收 消息 。 因 为 这 是 
一 个 SPMD 程序 ， 所 以 极 有 可 能 把 它 写成 如 下 形式 : 


int neigh; // the rank of the neighbor process 
If (ID == 0) neigh = 1; else neigh = 0; 


MPI Send (outgoing, buffer count, MPI LONG, neigh, Tagi, 
MPI COMM. WORLD) ; 


// ERROR: possibly deadlocking program 
MPI Recv (incoming, buffer count, MPI LONG, neigh, Tag2, 
MPI COMM WORLD, &stat); 


这 段 代 码 非常 简单 、 紧 次 ， 但 是 在 有 些 情况 下 〈 比如， 消息 占 的 空间 非常 大 )， 系 统 可 能 
没 办 法 找到 足够 的 空间 去 发 送 消息 ， 直 到 它们 在 通信 结束 的 时 候 被 复制 到 目标 进程 的 缓冲 区 
里 。 因 为 消息 发 送 将 会 阻塞 ， 直 到 系统 缓冲 区 可 以 重用 ， 接 收 函 数 将 永远 不 会 被 调用 ， 这 样 
就 会 导致 程序 死 锁 。 因 此 ， 为 了 写 前 面 的 代码 ， 最 安全 的 方法 就 是 像 我 们 在 图 B-4 中 做 的 那 
样 ， 把 通信 分 开 。 


MPI jj 4 : 203 


B4 集合 操作 


除了 点 对 点 消息 传递 例 程 之 外 ，MPI 也 包含 组 内 所 有 进程 一 同 工 作 以 实现 复杂 通信 的 集 
合 操作 。 这 些 集合 通信 操作 对 于 MPI 编程 来 说 是 非常 重要 的 ， EXE, IRE MPI 程序 主要 包 
括 集 合 操 作 ， 而 完全 没有 成 对 的 消息 传递 。 

最 常用 的 集合 操作 包含 如 下 函数 。 

e MPI_Barrier。 和 定义 了 一 个 同步 点 ， 所 有 进程 都 必须 到 达 这 个 同步 点 才能 继续 运行 。 
对 于 MPI 来 说 ， 这 就 意味 着 每 个 使 用 该 通信 域 的 进程 在 它们 继续 执行 之 前 必须 调用 该 
函数 。 这 个 函数 的 细节 见 第 6 章 。 

e MPI Bcast。 将 来 自 一 个 进程 的 消息 广播 到 进程 组 中 的 所 有 进程 。 

e MPI Reduce。 归 和 约 操作 获得 分 散在 进程 组 中 的 一 个 值 集 ， 这 些 值 位 于 inbuff 指 
向 的 缓冲 区 中 ， 然 后 用 指定 的 二 元 操作 符 计算 它们 。 为 了 让 这 个 函数 意义 ,问题 中 的 
操作 必须 符合 结合 律 。 对 于 最 常见 二 元 函数 的 例子 是 加 法 和 在 一 组 数 中 找 出 最 大 或 最 
小 值 。 注 意 ， 仅 仅 可 以 在 所 指定 的 目的 进程 中 得 到 最 终 的 归 约 值 (位 于 outbuff fü 
向 的 缓冲 区 )。 如 果 这 个 值 要 被 所 有 进程 所 用 ， 我 们 需要 用 到 这 个 函数 的 变 体 MPI 
ALL reduce()。 归 约 的 细节 见 第 6 章 。 

这 些 函 数 的 语法 在 图 B-5 中 定义 。 


int MPI_Barrier (COMM) ; 
int MPI_Bcast (outbuff, count, MPI_type, source, COMM); 


int MPI_Reduce (inbuff, outbuff, count, MPI_type, OP, dest, COMM); 


inbuff, outbuff 418145 MPI type 相 兼容 缓 冲 区 的 指针 
int count buff 中 包含 指定 类 型 的 条 目 个 数 


MPI type 定义 在 mpi.h 中 缓冲 区 里 条 目的 类 型 
int source 发 送 消息 进程 的 序号 


int dest 接收 最 后 归 约 输出 结果 的 进程 的 序号 
MPI_COMM Comm MPI 通 信 域 ， 通 常 使 用 默认 的 MPI_COMM_WORLD 
oP 用 于 归 约 的 运算 ， 定 义 在 mpi .h 中 ,通常 的 取 值 为 MPI 


MIN, MPI MAX 和 MPI SUM 





图 B-5 CHA F MPI 1.1 的 主要 集合 操作 函数 通信 例 程 (MPI_Barrier、MPI_Bcast 和 MPI Reduce) 


在 图 B-6 和 图 B-7 F, 我们 编写 了 一 段 用 这 三 个 函数 的 程序 。 在 这 个 程序 中 ， 我 们 希望 计 
算 一 个 消息 绕 进 程 环 传递 的 时 间 。 我 们 不 在 这 里 讨论 环形 通信 的 函数 ， 但 是 为 了 完整 性 ， 我 
们 提供 了 图 B-8。 对 于 任何 并 行程 序 来 说 ， 它 的 运行 时 间 就 是 它 最 慢 进 程 的 运行 时 间 。 所 以 我 
们 需要 得 到 每 个 进程 所 花费 的 时 间 并 且 找 到 它们 的 最 大 值 。 我 们 使 用 MPI 的 标准 计时 函数 : 


double MPI_Wtime(); 
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// 

// Ring communication test. 

// Command-line arguments define the size of the message 
// and the number of times it is shifted around the ring: 
A 

// a.out msg size num shifts 

yd 

#include “mpi.h" 

#include <stdio.h> 

#include <memory.h> 


int main(int argc, char **argv) { 
int num_shifts = 0; // number of times to shift the message 
int buff_count = 0; // number of doubles in the message 
int num_procs = 0; // number of processes in the ring 
int ID; // process (or node) id 
int buff_size_bytes; // message size in bytes 
int i; 


double t0; // wall-clock time in seconds 

double ring_time; // ring comm time - this process 

double max time; // ring comm time - max time for all processes 
double *x; // the outgoing message 


double *incoming; // the incoming message 
MPI_Status stat; 


// Initialize the MPI environment 
MPI_Init (&argce, &argv) ; 
MPI_Comm_rank(MPI_COMM_WORLD, &ID); 
MPI_Comm_size(MPI_COMM_WORLD, &num_procs); 


// Process, test, and broadcast input parameters 
if(ID == O)(. 
if (argc != 3)( 
printf("Usage: %s «size of message» «Num of shifts» WMn",*argv); 
fflush(stdout); 
MPI_Abort (MPI, COMM, WORLD, 1); 
n 


buff count = atoi(*++argv); num shifts = atoi(*++argv) ; 
printf(": shift Ad doubles Ad times Mn",buff count, num shifts); 
fflush(stdout); 

} 


// Continued in the next figure 





图 B-6 计算 ring 函数 在 环形 进程 中 传递 消息 所 用 时 间 的 程序 ( 续 见 图 B-7 )。 这 个 程序 返回 
使 用 通信 时 间 最 长 的 进程 。ring 函数 的 编码 与 此 例 无 关 ， 但 是 它 包 含 在 图 B-8 中 


// Continued from the previous figure 


// Broadcast data from rank 0 process to all other processes 
MPI_Bcast (&buff_count, 1, MPI_INT, 0, MPI_COMM_WORLD) ; 
MPI_Bcast (&num_shifts, 1, MPI INT, 0, MPI_COMM_WORLD) ; 


// Allocate space and fill the outgoing ("zr") and "incoming" vectors. 
buff size bytes = buff count * sizeof (double); 


x = (double*)malloc(buff,. size bytes); 
incoming = (double*)malloc(buff, size bytes); 





图 B-7 计算 ring 函数 在 环形 进程 中 传递 消息 所 用 时 间 的 程序 ( 续 图 B-6 ) 
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for (i=0;i<buff_count; i++) { 
x[i] = (double) i; 
incoming[i] = -1.0; 


) 


// Do the ring communication tests. 
MPI Barrier(MPI COMM. WORLD) ; 


tO = MPI Wtime(); 

/* code to pass messages around a ring */ 

ring (x,incoming,buff count,num procs,num,shifts,ID); 
ring time = MPI Wtime() - t0; 


// Analyze results 
MPI Barrier(MPI. COMM, WORLD) ; 


MPI Reduce(&£ring time, &max time, 1, MPI_DOUBLE, MPI_MAX, O, 
MPI. COMM WORLD); 
if(ID == 0){ 
printf("\n Ring test took %f seconds", max time); 


MPI Finalize(); 
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MPI Wtime () 返回 自 过 去 某 一 点 到 现在 的 时 间 ( 以 秒 为 单位 )。 通 常 调 用 它 两 次 来 计算 
我 们 感 兴趣 的 时 间 间 隔 。 

这 个 程序 一 开始 就 像 大 多 数 MPI 程序 一 样 ， 声 明 ， 初 始 化 MPI， 确 定 进 程序 号 和 进程 数 
量 。 接 着 我 们 从 命令 行 参数 得 到 消息 大 小 和 消息 绕 环 传递 的 次 数 。 因 为 每 个 进程 都 会 使 用 到 
这 些 值 ， 所 以 调用 MPI Bcast () 函数 广播 这 些 值 。 

然后 给 用 于 环形 测试 的 输入 /输出 向 量 分 配 空间 。 为 了 得 到 一 致 的 结果 ， 所 有 进程 必 
须 在 任意 进程 进入 程序 的 计时 部 分 前 彻底 初始 化 。 这 个 工作 可 在 进入 计时 部 分 前 调用 MPI 
Barrier() 婧 数 得 以 保证 。 下 一 步调 用 计时 函数 得 到 开始 时 间 ， 环 形 测试 开始 ， 然 后 再 
次 调用 计时 函数 。 两 次 计时 函数 的 差 就 是 这 个 进程 将 消息 绕 环 传递 所 花 的 时 间 。 


29 je p RAR je ae AAA AAA AAA AA AA TAA A AAA AANA AAA abe oe aj je AA AAA AHR AR oj joe AAR e yoke oe coe e eee 

NAME: ring 

PURPOSE: This function does the ring communication, uith the 
odd numbered processes sending then receiving while the even 
processes recetve and then send. 
The sends are blocking sends, but this version of the ring 
test still ts deadlock-free since each send always has a 
posted receive. 

FIO je je oe oe oe je oe oe je be oe je be je je je oe oe oe oe je je je eje be je e A fe je je je je je AA oe n oe pe be AOA jeje oe oe o oe oe eoe je joe joe ook | 


define IS ODD(x) ((x)%2) /* test for an odd int */ 
#include "mpi.h" 


ring( 


double *x, /* message to shift around the ring */ 
double *incoming, /* buffer to hold incoming message */ 
int buff count, /* size of message */ 

int num procs, /* total number of processes */a 

int num shifts, /* numb of times to shift message */ 
int my ID) /* process id number */ 





图 B-8 用 来 绕 进 程 环 传递 消息 的 函数 。 它 避免 了 死 锁 ， 因 为 发 送 和 接收 是 按照 进程 序号 的 奇偶 性 分 开 的 
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int next; /* process id of the next process */ 
int prev; /* process id of the prev process */ 
int i; 
MPI Status stat; 
Sf BERERREER ERE FE HK HEE KEK KR KK afe je oje afe ofc je afe je HK ae afe oje ofe aie ape oje je KE KKK 
** In this ring method, odd processes snd/rcv and even processes 
rcv/snd. 
a c oj oj e oj ge eo x Kk kk e ok c je okcokc jc e o te y fe oe e je cake coc kc oe oc oe oc oc oe c ko OCOD eee / 
next = (my ID *1 )%num_procs; 
prev = ((my.ID220)? (num procs-1): (my ID-1)); 
if( IS ODD(my ID) ){ 


for(iz0;i«num shifts; i++){ 
MPI Send (x, buff count, MPI DOUBLE, next, 3, 
MPI, COMM. WORLD) ; 
MPI Recv (incoming, buff count, MPI DOUBLE, prev, 3, 
MPI COMM WORLD, &stat); 
) 
} 
else{ 
for(i=0;i<num_shifts; i++){ 
MPI_Recv (incoming, buff_count, MPI_DOUBLE, prev, 3, 
MPI COMM WORLD, &stat); 
MPI Send (x, buff count, MPI DOUBLE, next, 3, 
MPI. COMM. WORLD) ; 





图 B-8 (5) 
对 于 一 个 MPI 程序 来 说 ， 运 行 的 总 时 间 是 最 慢 处 的 理 器 所 决定 的 。 我 们 需要 找到 各 个 处 理 
器 所 花费 的 最 长 时 间 。 为 此 ， 只 需要 调用 MPI Reduce () PRM, IEA MPI Max 运算 即 可 。 


int MPI_Isend(outbuff, count, MPI_type, dest, tag, MPI_COMM, request) ; 
int MPI_Irecv (inbuff, count, MPI_type, source, tag, MPI_COMM, request) 
int MPI Wait(request, status); 

int MPI Test(request, flag, status); 


inbuff, outbuff 指向 与 MPI_ type 相 兼 容 缓冲 区 的 指针 

int count buff 中 包含 指定 类 型 的 条 目 个 数 

MPI type 定义 在 mpi.h 中 缓冲 区 里 条 目的 类 型 

int source 发 送 消息 进程 的 序号 

int tag 消息 的 一 个 标签 

int dest 接收 最 后 归 约 输出 结果 的 进程 的 序号 

MPI_COMM Comm MPI 通信 域 ， 通 常 使 用 默认 的 MPI COMM WORLD 

MPI Request request “用 于 与 通信 交互 的 句柄 

int flag 一 个 标志 ， 如 果 消 息 完 成 它 会 变 成 非 零 的 数字 ( 逻辑 值 为 真 ) 





图 B-9 SFR SES FH iid fr pa 


B.5 高 级 的 点 对 点 消息 传递 
大 多 数 MPI 程序 员 仅 仅 使 用 标准 的 点 对 点 传递 函数 。 但 是 ， 为 程序 员 能 够 控制 更 多 通信 
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的 细节 ，MPI $e Ht f SH Sei PAX. FY REX AE I I P XB PP dc RE BI LA 3E T. 
X (异步 ) 通信 函数 。 

3E BH 3E 388 fei A CAE RT LL GBE iE RET AA (ERE. EBA SERI fes PR CRT 
以 直接 返回 ， 提 供 一 个 可 以 等 待 科 查询 的 “请 求 句 柄 ”"。 这 些 函 数 的 语法 可 以 在 图 B-9 中 看 
到 。 为 了 彻底 了 解 这 些 函 数 是 怎样 使 用 的 ， 我 们 提供 了 图 B-10 的 程序 。 

在 初始 化 MPI 环境 之 后 ， 为 分 配给 域 (U ) 以 及 用 于 和 边界 通信 的 缓冲 区 (B 和 inB ) 
分 配 内 存 。 接 着 ， 对 于 每 个 进程 通过 从 左 向 右 计 算 ID ， 从 而 建立 起 环形 通信 模式 。 每 个 迭代 
通过 接收 开始 ， 进 入 主 进程 的 循环 : 


MPI_Irecv(inB, N, MPI_DOUBLE, left, i, MPI_COMM_WORLD, kreq recv); 





#include <stdio.h> 

#include <mpi.h> 

// Update a distributed field with a local N by N block on each process 
// (held in the array U). The point of this example is to show 

// communication overlapped with computation, so code for other 

// functions is not included. 


#define N 100 // size of an edge in the square field. 
void extern initialize(int, double*); 

void extern extract boundary(int, double*, double*); 
void extern update interior(int, double*); 

void extern update edge(int,dougble*, double*) ; 


int main(int argc, char **argv) { 
double *U, *B, *inB; 
int i, num_procs, ID, left, right, Nsteps = 100; 
MPI_Status status; 
MPI_Request req_recv, req_send; 


// Initialize the MPI environment 
MPI Init(&argc,&argv); 
MPI Comm, rank(MPI COMM WORLD, &ID); 
MPI, Comm size(MPI COMM WORLD, &num_procs) ; 


// allocate space for the field (U), and the buffers 
// to send and receive the edges (B, inB) 

U = (double*)malloc(N*N * sizeof(double)); 

B = (double*)malloc(N * sizeof(double)); 

inB = (double*)malloc(N * sizeof(double)); 


// Initialize the field and set up a ring communication pattern 
initialize (N, U); 
right = ID + 1; if (right > (num procs-1)) right = 0; 
left = ID - 1; if (left < 0 ) left = num procs-1; 


// Iteratively update the field U 

for(i=0; i<Nsteps; i++){ 
MPI_Irecv(inB, N, MPI DOUBLE, left, i, MPI COMM WORLD, &req_recv); 
extract boundary(N, U, B); //Copy the edge of U into B 
MPI_Isend(B, N, MPI.DOUBLE, right, i, MPI COMM WORLD, kreq. send) ; 
update interior(N, U); 
MPI Wait(&req recv, &status); MPI Wait(kreq send, &status); 
update edge(ID, inB, U); 

) 

MPI Finalize(); 





图 B-10 用 非 堵塞 通信 和 迭代 更 新 域 的 程序 ， 此 算法 只 需要 从 左 到 右 移动 消息 


208 Kr B 


一 旦 系统 建立 起 用 于 保存 从 左边 来 的 消息 资源 ， 此 函数 变 马 上 返回 。 句柄 req_recv 提 
供 了 一 种 关于 通信 状态 的 询问 机 制 。 接 着 域 的 边界 被 抽取 出 来 然后 发 送 到 右 邻 居 去 。 


MPI Isend(B, N, MPI DOUBLE, right, i, MPI_COMM_WORLD, &req_send); 


当 通 信 发 生 的 时 候 ， 程 序 更 新 了 域 的 内 层 〈 内 的 意思 是 这 部 分 的 更 新 不 需要 邻居 进程 的 
信息 )。 当 工作 完成 后 ， 每 个 进程 必须 等 待 ， 直 到 所 有 通信 完成 。 


MPI Wait(&req send, &status); 
MPI Wait(&req recv, &status); 


Afri RR, GMA, ETER FUGA. 

MPI 中 为 一 项 减少 并 行 花 销 的 技术 是 持续 通信 。 当 一 个 问题 重复 使 用 某 种 通信 模式 的 时 
候 ， 就 会 考虑 这 种 技术 。 这 个 想法 是 建立 一 次 通信 接着 让 他 传递 多 次 实际 消息 。 持 续 通 信 中 
使 用 的 函数 有 : 


MPI_Send_init(outbuff, count, MPI_type, dest, tag, MPI_COMM, &request); 
MPI_Recv_init(inbuff, count, MPI type, src, tag, MPI_COMM, &request); 
MPI_Start (&krequest) ; 

MPI Wait(Erequest, &status); 


MPI Send init 和 MPI Recv init 用 来 建立 通信 。 这 两 个 函数 将 会 返回 一 个 请 求 
句柄 用 来 操作 实际 通信 的 事件 。 这 个 通信 将 会 因为 MPI_Start 的 调用 而 初始 化 ， 在 这 一 点 
上 ， 这 个 进程 都 是 准备 好 继续 进行 任何 计算 的 。 通 信 完 成 之 前 ， 当 没有 后 续 的 工作 可 以 做 的 
时 候 ， 进 程 可 以 调用 MPI_Wait 函数 进行 等 待 。 对 于 在 图 B-8 中 表达 的 环形 通信 模式 用 持续 
通信 的 函数 见 图 B-11。 
除了 非 堵塞 通信 和 持续 通信 之 外 ，MPI 定义 了 几 个 通信 模式 对 应 不 同 的 通信 缓冲 区 发 送 
方式 。 
e 标准 通信 模式 (MPI Send )。 标 准 的 MPI AIK ; 直到 发 送 缓 冲 区 被 清空 并 可 以 重用 
的 时 候 ， 这 个 发 送 过 程 才 算 完成 。 

e 阻塞 通信 模式 (MPI Ssend )。 发 送 直到 一 个 匹配 的 接收 已 经 发 送 后 才 算 完成 。 这 使 
得 可 以 将 通信 作为 一 个 对 同步 事件 。 

e 缓冲 通信 模式 (MPI _Bsend )。 用 户 提 供 缓 冲 空间 用 于 缓冲 消息 。 这 种 发 送 会 随 着 发 
送 到 缓冲 区 的 消息 复制 到 系统 缓冲 区 而 结束 。 

e MARX (MPI _Rsend )。 发 送 将 假设 一 个 匹配 的 接收 已 经 发 送 (否则 程序 出 
错 )， 因 此 立即 传送 消息 。 在 一 些 系统 中 ， 就 绪 通 信 模 式 会 更 加 有 效率 。 

本 书 中 大 多 数 MPI 使 用 的 是 标准 模式 。 第 6 章 使 用 同步 模式 实现 互 斥 。 其 他 模式 的 更 多 
细节 可 以 在 MPI 规范 [Mesb] 中 查 到 。 


JR RAR e e je b he e e b je je je b AHA AA AAA AAA AA AANA IAA AA ANA IIA AAA oe jeje je AANA A AAA AA AAA 
NAME: ring_persistent 
PURPOSE: This function uses the persistent communication request 


mechanism to implement the ring communication in MPI. 
Nc ey ee AR AHA AHR AA AHIR eoe ee HAHA AR ARIA AAR AHR AHR AA AAR eoe coe AA AAA AAA AA ek S 


#include "mpi.h" 
#include <stdio.h> 


图 B-11 使 用 持续 通信 使 得 消息 线 环 传递 的 函数 
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ring_persistent ( 
double *x, /* message to shift around the ring */ 
double *incoming, /* buffer to hold incoming message */ 
int buff_count, /* size of message */ 
int num_procs, /* total number of processes */ 
int num_shifts, /* numb of times to shift message */ 
int my_ID) /* process id number */ 
{ 
int next; /* process id of the next process */ 
int prev; /* process id of the prev process */ 
int i; 
MPI_Request snd_req; /* handle to the persistent send */ 
MPI Request rcv req; /* handle to the persistent receive */ 
MPI Status stat; 


Jk be je e je oj je je je bt be je je be e je e je je je je oe oe je aj je be be je fe be je je je kc oe oe oj oj fe je be je fe e oe oe oe je oj oe oj oj oe oj oe e oe je je oc e jeje 
** In this ring method, first post all the sends and then pick up 
# the messages with the receives. 
aje e je je aj fe oe be be je je je be fe je je oe je je obe be je e je e be je je AHA AA ope oj AR AA FAA AAAS AAA AAA AAA AA AAI AAA IAAI ff 
next = (my ID +1 )%num_procs; 
prev = ((my ID220)? (num, procs-1) : (my ID-1)); 


MPI Send init(x, buff count, MPI DOUBLE, next, 3, 
MPI COMM WORLD, &snd req); 
MPI Recv init(incoming, buff count, MPI DOUBLE, prev, 3, 
MPI.COMM WORLD, &rcv req); 
for(iz0;i«num shifts; i++){ 


MPI.Start(&snd req); 
MPI Start(£&rcv req); 


MPI Wait(Esnd req, &stat); 
MPI Wait(&rcv req, &stat); 
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B.6 MPI 和 FORTRAN 





IE XX Hj MPI 4E. X. A C fl FORTRAN PS fii SSE. XI MPI All Java 的 绑 定 也 有 定义 
[BC00、Min97、BCKL98、AJMJS02]。 到 此 为 止 ， 我 们 只 关注 了 C 语言 。 但 是 在 一 些 简 单 规 


则 的 基础 上 ， 把 C 语言 翻译 到 Fortran 语言 是 非常 容易 的 。 
Fortran 中 ， 头 文件 mpif.h 包括 常量 、 错 误 代 码 等 。 


写 的 ，Fortran 则 不 区 分 大 小 写 。 


除了 计时 例 程 的 绝 大 部 分 情况 下 Fortran 使 用 子 例 程 ， 但 是 C 语言 使 用 函数 。 
C 函数 的 参数 的 数据 类 型 和 Fortran 子 例 程 的 参数 的 数据 类 型 能 够 明显 对 应 。 有 一 种 额 


MPI 例 程 在 两 种 语言 中 基本 上 都 是 一 个 名 字 。 但 是 在 C 语言 中 MPI 函数 是 区 分 大 小 


外 的 参数 在 Fortran 子 例 程 中 会 经 常见 到 ， 这 是 一 个 整数 参数 : ierr， 它 保存 MPI 错 


误 返 回 码 。 
比如 ， 我 们 将 MPI 的 归 约 函数 的 C 和 Fortran 版 本 在 图 B-12 中 对 比 。 
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在 C 中 ， 一 个 归 约 操作 由 下 列 函 数 完成 


int MPI Reduce (inbuff,outbuff,count,MPI_type,OP,dest, COMM) ; 


inbuff, outbuff 指向 一 个 兼容 MPI type 的 缓冲 区 的 指针 

int count 缓冲 区 中 包含 的 指定 数据 类 型 的 条 目 数 量 

MPI type 缓冲 区 中 条 目的 类 型 ， 其 在 mpi .h 中 定义 

OP 用 于 归 约 操作 的 运算 ， 其 在 mpi .h POE XQ H% D 
值 是 MPI MIN、MPI MAX 和 MPI SUM 

int dest 用 于 保存 最 终 输 出 结果 的 进程 号 

MPI COMM Comm MPI 通信 域 ， 通 常 的 选择 是 默认 值 MPI_COMM - 
WORLD 


类 比 于 Fortran 中 的 以 下 子 例 程 : 


subroutine MPI REDUCE(inbuff, outbuff, count, MPI 
type, OP, dest, COMM, ierr) 


inbuff, outbuff 恰当 尺寸 和 类 型 的 数组 

integer count 缓冲 区 中 包含 的 指定 数据 类 型 的 条 目 数量 

MPI type | 缓冲 区 中 条 目的 类 型 ， 其 在 mpi.h 中 定义 

OP 用 于 归 约 操作 的 运算 ， 其 在 mpi.h 中 定义 。 通 常 的 
值 是 MPI MIN, MPI MAX 和 MPI_SUM 

integer dest 用 于 保存 最 终 输 出 结果 的 进程 号 

MPI_COMM Comm MPI 通信 域 ， 通 常 的 选择 是 默认 值 MPI_COMM - 
WORLD 

interger ierr 一 个 用 于 保存 错误 码 的 整数 ， 其 在 mpi.h 中 定义 





图 B-12 C 版 本 和 Fortran 版 本 MPI 1.1 归 约 例 程 的 比较 


不 透明 对 象 (如 MPI_COMM 或 者 MPI Request) 在 Fortran 中 是 一 个 INTEGER 类 型 
(例外 的 是 布尔 变量 ， 其 在 Fortran 中 是 LOGICAL )。 

一 个 简单 的 MPI Fortran 程序 如 图 B-13 所 示 。 这 个 程序 展示 了 Fortran 中 MPI 基本 的 启 
动 例 程 和 结束 子 例 程 的 工作 原理 。 直 接 类 比 C 语言 的 MPI 会 在 图 B-13 中 表达 得 非常 清楚 。 
基本 上 ， 如 果 一 个 程序 员 能 够 在 一 种 语言 中 理解 MPI， 那 么 他 能 够 理解 另外 一 种 语言 的 MPI。 
基本 结构 在 两 种 语言 中 是 相同 的 。 但 是 ， 如 果 程 序 员 在 混合 Fortran-MPI 和 C-MPI 编程 的 时 
候 一 定 要 小 心 ， 因 为 MPI 规范 没有 保证 两 种 语言 间 的 互 操 作 性 。 
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program firstprog 
include "mpif.h" 
integer ID, Nprocs, ierr 


call MPI INIT( ierr ) 
call MPI COMM RANK ( MPI COMM WORLD, ID, ierr) 
call MPI COMM SIZE ( MPI COMM WORLD, Nprocs, ierr ) 


print *, "Process ", ID, " out of ", Nprocs 


call MPI FINALIZE( ierr ) 


end 





图 B-13 简单 的 MPI Fortran 程序 。 此 程序 用 于 输出 各 个 进程 的 ID 和 计算 中 进程 的 数量 289 


B.7 小 结 


到 目前 为 止 ，MPI 是 最 流行 的 并 行 编程 API。 它 经 常 叫 做 并 行 编程 的 “汇编 代码 ”。MPI 
的 底层 结构 非常 匹配 MIMD 模型 的 并 行 计算 机 。 这 就 让 MPI 程序 员 能 够 精准 控制 并 行 计算 如 
何 展开 ， 如 何 写 出 非常 高 效 的 程序 。 可 能 更 为 重要 的 是 ， 这 样 程序 员 可 以 写 出 可 移植 的 并 行 
程序 ， 它 们 运行 在 共享 内 存 计 算 机 、 大 规模 并 行 超级 计算 机 、 集 群 甚至 网 格 上 。 

学 习 MPI 是 非常 麻烦 的 事情 。 它 非常 庞大 ，MPI 1.1 中 有 125 个 不 同 的 函数 。MPI 这 样 
大 的 规模 确实 使 它 变 得 很 复杂 ,但 是 多 数 程序 员 避 免 了 这 种 复杂 性 ， 仅 仅 使 用 MPI 的 一 个 小 
子 集 。 很 多 并 行程 序 只 需要 简单 的 6 个 函数 就 能 写 出 来 : MPI Init, MPI Comm Size, 
MPI Comm Rank, MPI Send, MPI Recv 和 MPI Finalize。 我 们 可 以 从 [Pac96]、 
[GLS99] 和 [GS98] 中 得 到 更 多 关于 MPI 的 优质 信息 。 不 同 版 本 的 MPI 对 大 多 数 计算 机 系 
统 是 可 用 的 ， 通常 他 们 都 以 开源 软件 的 形式 在 网 络 上 发 布 。 最 常用 的 MPI 版 本 是 LAM/MPI 
[LAM] 和 MPICH [MPI]. 290 
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Java 并 发 编程 简介 





Java 是 一 种 面向 对 象 的 编程 语言 ， 它 对 共享 内 存 程序 的 并 发 表达 提供 了 语言 支持 ，Java 
对 于 多 态 的 支持 可 用 来 编写 编程 框架 以 直接 支持 本 书 描述 的 一 些 模式 。 该 框架 为 这 些 模式 提 
供 基 础 架构 ， 应 用 程序 程序 员 可 添加 包含 特定 应 用 程序 代码 的 子 类 。 在 4.8 节 的 示例 部 分 中 
可 找到 这 样 的 一 个 例子 。Java 程序 通常 被 编译 成 称 为 Java 字 节 码 的 中 间 语 言 ， 然 后 在 目标 机 
器 上 编译 和 /或 解释 Java 字 节 码 ， 因 此 Java 程序 享有 高 度 可 移植 性 。 

Java 也 可 用 于 分 布 式 计算 ， 它 的 标准 库 为 分 布 式 系统 中 进程 间 通 信 提 供 了 几 种 机 制 文 持 。 
第 6 章 给 出 了 一 个 简单 的 阐述 。 另 外 ， 存 在 一 个 不 断 增长 的 包 集 合 ， 这 些 包 使 得 并 发 性 和 进 
程 间 通信 和 能够 以 一 种 比 利 用 语言 和 核心 包 所 提供 的 工具 更 高 的 水 平 来 表达 。 当 前 ， 利 用 Java 
工具 开发 的 几 类 最 常用 的 并 发 性 应 用 程序 包括 多 线程 服务 器 端 应 用 程序 、 图 形 用 户 界 面 和 一 
些 因 为 使 用 了 不 同位 置 的 数据 和 (或 ) 资源 而 自然 分 布 的 程序 。 

利用 Java 的 当前 实现 所 获得 性 能 并 不 比 利 用 高 性 能 科学 计算 中 通常 所 使 用 的 一 些 编程 语 
言 更 好 。 然 而 ，Java 无 处 不 在 的 特性 和 可 移植 性 ， 以 及 对 并 发 性 的 语言 支持， 使 得 它 成 为 一 
种 重要 的 平台 。 对 于 许多 人 来 说 ，Java 程序 很 可 能 是 他 们 的 第 一 个 并 发 程序 。 另 外 ， 不 断 提 
高 的 编译 器 技术 和 库 函 数 应 当 能 够 在 将 来 降低 性 能 差别 。 | 

”本 附录 描述 Java 2 1.5^[Java] ， 与 早期 版 本 相 比 ， 它 在 编程 语言 和 标准 库 中 添加 了 一 些 
新 的 功能 。 在 编程 语言 中 所 添加 的 内 容 包括 对 泛 型 类 型 和 自动 装 箱 操作 〈 自动 装 箱 提供 了 基 
本 数据 类 型 和 对 象 类 型 间 的 自动 转换 ， 如 int 和 Integer ) 的 支持 ， 并 增强 了 for 循环。 
图 C-1 展示 了 使 用 泛 型 类 型 的 程序 ， 这 是 本 书 唯一 一 次 描述 具体 语言 。 
/*class holding two objects of arbitrary type providing swap and 


accessor methods. The generic type variable name is enclosed in 
angle brackets*/ 


class Pair<Gentype> 
//Gentype is a type variable 
{ private Gentype x,y; 
void swap(){Gentype temp = x; x=y; y=temp;} 


public Gentype getX()Ííreturn x;} 

public Gentype getY(){return y;} 

Pair(Gentype x, Gentype y){this.x = x; this.y = y;} 
public String toString(){return "(" +x * "," + y + ")";} 


) 


/*The following method, defined in some class, instantiates two 
Pair objects, replacing the type variable in angle brackets with 





图 C-1 这 个 类 中 包含 了 一 对 任意 类 型 的 对 象 。 如 果 没 有 泛 型 类 型 ， 这 将 通过 声明 x 和 y 为 Object 类 
型 来 完成 ， 并 需要 强制 转换 getX 和 getY 的 返回 值 类 型 。 通 过 使 用 泛 型 ， 不 仅 使 代码 更 简洁 ， C 
而 且 可 使 一 些 类 型 错误 能 够 被 编译 器 发 现 ， 而 不 是 在 运行 时 抛 出 一 个 ClassCastException 异常 


名 “在 本 书 截 稿 时 ， 可 以 获得 的 Java 版 本 是 J2SE 1.5.0 Beta 1。 
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the actual type the object should contain. */ 


public static void test() 
{ /*create a Pair holding Strings. +*/ 
Pair<String> pi = new Pair<String>("hello","goodbye") ; 


/*create a Pair holding Integers. Autobozing automatically 
creates Integer objects from the given int parameters, 
saving the programmer from writing 

new Pair<Integer>(new Integer(1), new Integer (2));*/ 
Pair<Integer> p2 = new Pair<Integer>(1,2); 


/*do something with the Pairs. */ 
System.out.println(pi); pi.swapO; System.out.println(p1); 
System.out.println(p2); p2.swap(); System.out.println(p2); 





K c1 (4X) 
Java 2 1.538 343 YE java.lang 和 java.util 包 中 做 了 几 处 改动 ， 并 引入 了 一 些 新 包 ， 


如 java.util.concurrent、 java.util.concurrent.atomic 和 java.util. 
concurrent .locks， 为 并 发 编程 提供 了 重要 支持 。Java 2 1.5 还 注册 了 一 个 新 的 、 更 精 
确 的 内 存 模型 规范 。[JSRb、JSRc] 中 描述 了 用 于 并 发 编程 的 工具 ，[JSRa] 中 描述 了 新 的 内 
存 模 型 。 

本 附录 无 法 涵盖 所 有 的 Java 知识 。 因 此 ， 我 们 假设 你 已 经 对 这 门 语 言 有 一 定 的 了 解 ， 并 
着 重 介绍 与 共享 内 存 并 行 编程 最 相关 的 一 些 内 容 ， 包 括 Java 2 1.5 中 引入 的 一 些 新 的 特征 。 在 
[AGH00、HC02、HC01] 中 可 以 找到 关于 Java 和 它 的 库 (Java 2 1.5 之 前 的 版 本 ) 的 介绍 。 在 
[Lea00a] 中 很 好 地 讨论 了 Java 中 的 并 发 编程 。 


C.1 线程 的 创建 


在 Java 中 ， 一 个 应 用 程序 至 少 具有 一 个 执行 main 方法 的 线程 。 可 以 通过 实例 化 并 启动 
thread 对 象 创 建 一 个 新 线程 ; 该 线程 要 执行 的 代码 由 run 方法 提供 ， 后 面 将 详细 介绍 这 一 
点 。 当 一 个 线程 的 run 方法 返回 时 ， 该 线程 将 终止 。 线 程 可 以 是 普通 类 型 ， 也 可 以 是 一 个 守 
护 线程 。 在 一 个 应 用 程序 中 ， "n 当 所 有 非 守护 线 
程 终 止 时 ， 应 用 程序 也 将 终止 。 

根据 Java 通常 的 作用 域 规则 ， 一 个 线程 可 以 访问 其 run 方法 可 见 的 所 有 变量 。 这 样 ， 
通过 使 一 些 变量 对 多 个 线程 可 见 ， 能 够 使 存储 器 在 这 些 线程 间 共享 。 通 过 封装 变量 ， 可 使 内 
存 不 被 其 他 线程 访问 。 另 外 ， 一 个 变量 可 以 声明 为 final 类 型 , 一旦 初始 化 ， 它 的 值 将 不 再 
改变 。 如 果 已 经 正确 初始 化 ,， final 类 型 的 变量 可 以 被 多 个 线程 访问 ， 而 不 需要 同步 (但 将 一 
个 引用 声明 为 final 类 型 ， 并 不 能 保证 所 引用 对 象 的 不 变性 ; 使 用 时 必须 小 心 确保 它 是 线程 
级 安全 的 )。 

有 两 种 不 同方 法 来 指定 线程 将 要 执行 的 run 方法。 一 种 是 扩展 Thread 类 ， 并 重 写 
run 方法 。 然 后， 实例 化 子 类 的 一 个 对 象 ， 并 调用 子 类 所 继承 的 start 方法 。 更 通用 的 方 
法 是 使 用 以 一 个 Runnable 对 象 作 为 参数 的 构造 函数 来 实例 化 Thread 对 象 。 像 前 面 的 方 
法 一 样 ， 调 用 Thread MRA start 方法 来 启动 线程 的 执行 。Runnable 接 口 包含 一 个 
public void run 方法 ; 新 建 线程 将 执行 Rinnable 对 象 的 run 方法 。 因 为 run 方法 没 
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有 人 参数， 所 以 信息 通常 通过 Thread 子 类 或 Runnable 的 数据 成 员 传 递 给 线程 。 这 些 通 常 在 
构造 函数 中 设置 。 

在 下 面 的 示例 中 ，ThinkParallel 类 实现 了 Runnable 接口 ( 即 它 声明 它 实现 这 个 
接口 ， 并 提供 一 个 public void run() 方法 )。main 方法 创建 并 启动 了 4 个 Thread 对 
象 ， 每 个 Thread 对 象 传递 一 个 ThinkParallel 对 象 ， 该 对 象 的 id 字段 已 经 设置 为 循环 
计数 器 i 的 值 。 这 将 导致 4 个 线程 被 创建 ， 每 个 线程 执行 ThinkParallel 类 的 run 方法 。 


Class ThinkParallel implements Runnable 


int id; //thread-specific variable containing thread ID 


/*The run method defines the thread’s behavior*/ 
public void run() 
{ System.out.println(id + ": Are we there yet?"); 


/*Constructor sets id*/ 
ThinkParallel(int id){this.id = id;} 


/*main method instantiates and starts the threads*/ 
public static void main(String[] args) 


{ /*create and start 4 Thread objects, 
passing each a ThinkParallel object 
*/ 


for(int i = 0; i != 4; i++) 
{ new Thread(new ThinkParallel(i)).start(); } 
} 
} 





图 C-2 该 程序 创建 了 4 个 线程 ， 在 线程 的 构造 函数 中 传递 一 个 Runnable WR. 
线程 专用 的 数据 存储 在 Runnable 对 象 的 一 个 字段 中 


C.1.1 匿名 内 部 类 


几 个 示例 展示 了 一 种 常用 编程 习惯 : 使 用 一 个 匿名 类 在 创建 它们 的 地 方 定义 Runnables 
或 者 Threads。 这 通常 使 得 阅读 源 代 码 更 加 方便 ， 并 且 避 人 免 了 文件 和 类 的 混乱 。 我 们 在 图 
C-3 中 演示 了 如 何 使 用 这 种 编程 习惯 重新 编写 图 C-2 中 的 程序 。 不 能 在 匿名 类 中 提 及 一 个 方 
法 的 局 部 变量 ， 除 非 该 变量 被 声明 为 final 类 型 ( 该 变量 被 赋值 后 不 可 改变 )。 这 是 引入 看 似 
元 余 的 变量 j 的 原因 。 


class ThinkParallelAnon { 


/*main method instantiates and starts the threads*/ 


public static void main(String[] args) 


{ /*create and start 4 Thread objects, 
passing each a Runnable object defined by an anonymous class 


*/ 





图 C-3 与 图 C-2 中 的 程序 相似 的 程序 ， 但 是 这 个 程序 使 用 了 匿名 类 来 定义 Runnable WR 
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for(int i = 0; i != 4; i++) 
( final int j = i; 
new Thread( new Runnable() //define Runnable objects 
// anonymously 
( int id = j; //references 
public void run() 
( System.out.println(id * ": 
Are we there yet?");) 


) 


).start () ; 





图 C-3 (A) 


C.1.2 Executor 和 工厂 方法 


java.util.concurrent 包 提供 了 Executor 接口 和 它 的 子 接口 ExecutorService， 
以 及 ExecutorServices 的 几 个 实现 。Executor 执行 Runnable 对 象 ， 同 时 隐藏 
了 线程 创建 和 调度 的 细节 ”。 这 样 ， 可 以 实例 化 一 个 Executor 对 象 ， 并 调用 Executor 
的 execute 方 法 来 执行 Runnable， 而 不 是 实例 化 一 个 Thread 对象 并 给 它 传递 一 
个 Runnable 对 象 以 执行 一 个 任务 。 例 如 ，ThreadPoolExecutor 管 理 一 个 线程 
池 ， 并 使 用 其 中 的 一 个 线程 执行 提交 的 Runnable。 虽 然 实 现 了 这 些 接 口 的 类 提供 了 一 
些 可 调整 参数 ， 但 是 Executor 类 提供 了 通过 创建 了 各 种 ExecutorService 来 预 配 
置 一 些 最 常用 情形 的 工厂 方法 (factory method), PIM, TL) H% Executors. 
newCachedThreadPool () 返回 一 个 具有 一 个 未 绑 定 线程 池 并 且 能 够 自动 回收 线程 的 
ExecutorService。 如 果 可 以 获得 线程 池 中 的 一 个 线程 ， 将 尝试 使 用 该 线程 ， 如 果 不 能 
获得 ， 则 创建 一 个 新 线程 。 在 一 定时 间 后 ， 空 闲 线程 将 被 清除 出 线程 池 。 另 外 一 个 示例 是 
Executors.newFixedThreadPool(int nThread)， 它 创建 一 个 包含 nThreads 
个 线程 的 固定 大 小 线程 池 。 该 线程 池 包 含 一 个 未 绑 定 的 用 于 存放 等 待 任务 的 队列 。 其 他 
的 配置 也 是 可 以 的 ， 包括 使 用 这 里 没有 描述 的 其 他 工厂 方法 ,或 者 直接 实例 化 一 个 实现 
ExecutorService 的 类 并 手动 调整 参数 。 

通过 重 写 前 面 的 程序 ， 图 C-4 展示 了 这 样 一 个 示例 。 需 要 注意 的 是 ， 为 了 采用 一 种 不 同 
的 线程 管理 策略 ， 我 们 将 仅 需 要 调用 一 个 不 同 的 工厂 方法 来 实例 化 Executor。 代 码 的 其 他 
部 分 保持 不 变 。 

Runnable 接口 中 的 run 方法 不 返回 值 ， 并 且 不 能 抛 出 异常 。 为 了 纠正 这 个 缺陷 ， 引 入 
了 callable 接口 ， 该 接口 包含 一 个 名 为 call 的 方法 ， 该 方法 能 够 抛 出 异常 并 返回 一 个 结 
果 。 该 接口 的 定义 利用 了 对 泛 型 类 型 的 新 支持 。 通 过 使 用 实现 了 ExecutorService 接口 
的 对 象 的 submit WHE, Callable 能 够 安排 执行 。submit 方法 返回 一 个 Future WE, 
表示 异步 计算 的 结果 。 为 了 等 待 计算 的 完成 ， 并 且 获 得 结果 ，Future 对 象 提供 了 一 些 用 于 


© ExecutorServices 接口 提供 了 一 些 用 于 管理 线程 终止 和 支持 Future 的 额外 方法 。 在 java.util. 
concurrent 包 中 Executor 的 实现 也 实现 了 ExecutorService 接口 。 
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检测 计算 是 否 完 成 的 方法 。 包 含 在 尖 括 号 中 的 类 型 指定 该 类 将 被 声明 为 这 种 类 型 。 


import java.util.concurrent.*; 


class ThinkParalleln implements Runnable { 


int id; //thread-specific variable containing thread ID 


/*The run method defines the tasks behavior*/ 
public void run() 

{ System.out.println(id + ": Are we there yet?"); 
} 


/*Constructor sets id*/ 
ThinkParalleln(int id){this.id = id;} 


/*main method creates an Executor to manage the tasks*/ 
public static void main(String[] args) 


{ /*create an Executor using a factory method in Executors*/ 
ExecutorService executor = Executors.newCachedThreadPool (); 


// send each task to the executor 
for(int i= 0; i l= 4; i++) 
{ executor.execute(new ThinkParalleln(i)); } 


/*shuts doum after all queued tasks handled*/ 
executor. shutdown(); 





图 C-4 本 程序 使 用 了 一 个 ThreadPoolExecutor 而 不 是 直接 创建 线程 


图 C5 中 给 出 了 一 个 主线 程 将 一 个 匿名 的 Callable 传递 给 一 个 Executor MSE. Executor 
在 为 一 个 线程 中 安排 call 方法 的 执行 。 同 时 ， 初 始 线程 完成 某 些 其 他 工作 ， 然 后 使 用 get 方法 
获得 Callable 执行 的 结果 。 如 果 需 要 ， 主 线程 将 在 get 方法 处 阻塞 ， 直 到 获得 可 用 的 结果 。 


/*ezecute a Callable that returns a Double. 
The notation Future<Double> indicates a (generic) Future that 
has been specialized to be a «Double». 
*/ 
Future<Double> future = executor. submit ( 
new Callable<Double>() { 
public Double call() { return result_of_long_computation; } 


»; 
do something else(); /* do other things while long 
computation proceeds in another thread */ 
try { 
Double d = (future.get()); /* get results of long 
computation, waiting if necessary*/ 
} catch (ExecutionException ex) { cleanup(); return; } 





图 C-5 代码 段 说 明 Callable Ñ Future 的 使 用 


C.2 原子 性 、 内 存 同 步 和 volatile 关键 字 
Java 虚拟 机 ( JVM ) 规范 要 求 除 1ong 和 double 之 外 的 所 有 基本 类 型 的 读 和 写 操 作 必 
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须 是 原子 性 的 。 这 样 ， 一 条 类 似 于 done-true 这 样 的 语句 将 不 与 其 他 线程 相互 干扰 。 遗 优 


的 是 ， 像 第 6 章 所 解释 的 一 样 ， 我 们 不 仅 需要 原子 性 ， 而 且 需 要 确保 写 操作 对 其 他 线程 是 可 
见 的 ， 其 他 线程 将 访问 该 变量 的 最 新 值 。 在 Java 中 ， 一 个 变量 被 标识 为 volatile 类 型 将 
保证 所 有 访问 都 会 被 内 存 同 步 。 另 外 ， 应 用 于 long 和 double 类 型 的 volatile 关键 字 也 
保证 了 原子 性 。 

java.util.concurrent.atomic 包 提 供 了 对 原子 性 和 内 存 同 步 的 扩展 文 持 。 例 如 ， 
该 包 包 含 大 量 在 其 类 型 中 提供 compareAndSet 原子 操作 的 类 。 在 许多 系统 中 ， 这 样 的 操作 
可 以 实现 为 单条 机 器 指令 。 这 样 该 包 可 以 提供 其 他 操作 ， 例 如 ， 原 子 递 增 。 该 包 也 提供 每 个 


数组 元 素 都 具有 volatile 语义 的 一 些 数组 类 >。 仅 当 对 一 个 对 象 的 关键 更 新 被 限制 为 对 单个 变 


量 的 更 新 时 ，java.util.concurrent.atomic 包 中 的 类 才 有 意义 。 因 此 ， 它 们 通常 被 
用 作为 较 高 级 别 构造 的 构造 块 。 
下 面 的 代码 使 用 了 AtomicLong 类 的 getAndIncrement 方法 实现 了 一 个 线程 安全 的 
Fro ACHE RE (sequencer )。 这 个 getAndIncrement 方法 自动 获得 变量 的 值 ， 递 增 变量 ， 并 
返回 初始 值 。 这 样 的 序列 发 生 需 可 在 某 些 主 /从 进程 设计 中 实现 一 个 任务 队列 。 
class Sequencer 
private AtomicLong sequenceNumber = new AtomicLong(0) ; 


public long next() { return sequenceNumber.getAndIncrement(); } 


} 


C.3 同步 块 


当 变 量 可 以 被 多 个 线程 访问 时 ， 必 须 十 分 谨慎 以 确保 不 出 现 损坏 数据 的 争 用 条 件 。Java 
提供 一 种 称 为 同步 块 的 构造 ， 允 许 程序 员 确 保 对 共享 变量 的 互 斥 访问 。 同 步 块 也 可 以 用 作为 
隐 式 的 内 存 栅栏 ， 就 像 6.3 节 所 描述 的 一 样 。 

Java 程序 中 的 每 一 个 类 都 是 Object 类 的 一 个 直接 或 间接 子 类 。 每 一 个 object 实例 都 
隐 式 地 包含 一 个 锁 。 一 个 同步 块 始终 与 一 个 对 象 相关 联 : 在 一 个 线程 能 够 进入 一 个 同步 块 之 
前 ， 它 必须 获得 与 该 对 象 相关 联 的 锁 。 当 线程 离开 同步 块 时 ， 无 论 是 正常 还 是 因为 抛 出 异常 
而 离开 ， 都 释放 锁 。 在 同一 时 间 内 ， 至 多 只 有 一 个 线程 能 够 拥有 锁 ， 因 此 同步 块 能 够 确保 数 
据 的 互 太 访问 。 同 时 ， 它 们 也 可 用 于 同步 内 存 。 | 

声明 一 个 同步 块 的 代码 如 下 所 示 : 


synchronized(object_ref){...body of block....} 


大 括号 限定 了 同步 块 。 用 于 获取 和 释放 锁 的 代码 由 编译 器 产生 。 

假设 我 们 在 ThinkParallel 类 中 添加 了 一 个 static int count 变量 ， 在 每 个 
线程 输出 它 的 消息 之 后 递增 该 变量 。 该 变量 为 静态 变量 ， 因 此 每 个 类 ( 而 不 是 每 个 对 象 ) 中 
都 存在 一 个 这 样 的 变量 ， 它 对 于 所 有 线程 都 可 见 并 进而 被 共享 。 为 了 避免 争 用 条 件 ， 可 以 将 
count 变量 放置 到 一 个 同步 块 中 >。 为 了 提供 保护 ， 所 有 线程 必须 使 用 相同 的 锁 ， 因 此 我 们 


O 在 Java 语 言 中 ， 将 一 个 数组 声明 为 volatile 类 型 ， 仅 使 得 数组 的 引用 而 不 是 每 个 元 素 为 volatile KH, 
加 ”当然 ， 对 于 这 种 特殊 情形 ， 可 以 改 用 java .util.;concurrent .atomic 包 中 定义 的 原子 变量 。 
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使 用 与 该 类 本 身 相 关联 的 对 象 。 对 于 任意 类 X, X.class 是 对 代表 类 x 的 唯一 对 象 的 一 个 引 
用 ， 因 此 可 以 按 如 下 方式 编写 代码 : 


public void run() 

{ System.out.println(id + ": Are we there yet?"); 
synchronized (ThinkParallel.class){count++;} 

} 


需要 强调 的 是 ， 仅 仅 那些 与 相同 对 象 相关 联 的 同步 块 才 相互 排斥 。 与 不 同 对 象 相关 联 的 
两 个 同步 块 可 以 并 发 地 执行 。 例 如 ， 在 编写 前 面 的 代码 时 ， 一 种 常见 的 编程 错误 为 : 


public void run() 

{ System.out.println(id + ": Are we there yet?"); 
synchronized(this){count++;} //WRONG! 

} 


在 这 个 错误 版 本 中 ， 每 个 线程 将 同步 于 与 “自己 ”或 者 this 对 象 相 关联 的 锁 。 这 将 意 
味 着 每 个 线程 在 进入 同步 块 时 将 获得 一 个 不 同 的 锁 ( 与 该 线程 对 象 本 身 相 关联 的 锁 )， 因 此 它 
们 不 会 相互 排斥 。 男 外 ， 同 步 块 不 约束 线程 访问 非 同 步 块 中 的 共享 变量 的 行为 。 程 序 员 必 须 
仔细 确保 所 有 共享 变量 受到 合理 的 保护 了 。 

Java 为 通用 情形 提供 了 一 种 特别 的 语法 ， 其 中 整个 方法 体位 于 与 this 对 象 相关 联 的 一 
个 同步 块 中 。 在 这 种 情形 中 ，s ynchronized 关键 字 用 于 修改 方法 的 声明 。 即 : 


public synchronized void updateSharedVariables(...) 
{ss «bodys... J 


可 简写 为 : 


public void updateSharedVariables(...) 
{ synchronized(this){....body....} } 


C4 等 待 和 通知 


一 个 线程 有 时 需要 检测 是 否 满 足 某 些 条 件 。 如 果 满 足 条 件 ， 则 线程 应 当 执 行 某 种 操作 ; 
如 果 条 件 不 满足 ， 则 它 应 当 继 续 等 待 ， 直 到 某 些 其 他 线程 建立 了 这 种 条 件 。 例 如 ， 一 个 线程 
可 能 要 查看 一 个 缓冲 区 是 否 包含 一 项 记录 。 如 果 包 含 ， 则 移 除 该 项 记录 ; 如 果 它 不 包含 ， 则 
线程 继续 等 待 ， 直 到 其 他 线程 插入 这 项 记录 。 检 测 条 件 和 执行 动作 都 必须 以 原子 方式 进行 。 
否则 ， 一 个 线程 可 以 检测 条 件 ( 即 ， 检 测 缓冲 区 非 空 )， 另 一 个 线程 可 以 伪造 这 个 条 件 (通过 
移 除 仅 有 的 记录 )， 于 是 第 一 个 线程 将 执行 一 个 依赖 于 这 个 〈 不 再 满足 ) 条 件 的 动作 ， 并 且 错 
置 程序 状态 。 因 而 ， 检 测 条 件 和 执行 动作 需要 放置 在 同一 个 同步 块 中 。 另 一 方面 ， 线 程 在 等 
待 时 ， 不 能 拥有 与 同步 块 相 关联 的 锁 。 因 为 这 样 将 阻塞 其 他 线程 的 访问 ， 从 而 阻止 条 件 的 建 
立 。 当 线程 正在 等 待 一 个 条 件 时 ， 需 要 释放 锁 ; 在 条 件 满足 后 ， 在 重新 检测 条 件 并 在 执行 它 
的 动作 之 前 ， 线 程 将 重新 获取 锁 。 传 统 的 监控 器 [Hoa74] 都 主张 处 理 这 种 情形 。Java 提供 了 
一 些 相似 的 工具 。 

Object 类 以 及 前 面 提 到 的 锁 ， 也 包含 一 个 用 作 条 件 变量 的 隐 式 等 待 集合 。Object 类 
提供 了 多 个 wait 方法 版 本 ， 这 些 wait 方法 使 得 主 调 线程 隐 式 地 释放 锁 ， 并 将 线程 本 身 添 
加 到 等 待 集合 中 。 等 待 集合 中 的 线程 不 符合 被 调度 运行 的 条 件 ， 将 被 挂 起 。 
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wait 方法 的 基本 使 用 方式 如 图 C-6 所 示 : 线程 获取 与 lockobject 相关 联 的 锁 ， 并 检 
W condition 是 否 满足 。 如 果 不 满足 条 件 ， 则 执行 while 循环 体 ( 即 wait 方法 ) 以 及 
wait 方法 。 这 使 得 锁 被 释放 ， 挂 起 线程 并 将 其 放置 到 属于 lockobject 的 等 待 集合 中 。 如 
果 满 足 条 件 ， 线 程 会 执行 action 并 离开 同步 块 。 在 离开 同步 块 时 ， 锁 会 被 释放 。 


synchronized(lock0bject) 
{ while( ! condition ){ lockObject.wait();} 


action; 





图 C-6 wait 方法 的 基本 使 用 方式 。 因 为 wait 会 抛 出 异常 InterruptedException, 
所 以 需要 将 它 封 装 在 一 个 try-catch 块 中 ,但 这 里 省 略 了 


线程 离开 等 待 集合 会 用 下 面 三 种 方式 中 的 一 种 。 第 一 ，0bject 类 的 notify 方法 和 
notifyRAll 方 法 将 唤醒 该 对 象 等 竺 集合 中 相应 的 一 个 或 所 有 线程 。 这 两 个 方法 倾向 于 被 建 
立 等 待 条 件 的 线程 所 调用 。 被 唤醒 线程 离开 等 待 集合 并 在 继续 执行 之 前 ， 重 新 获取 锁 。 可 以 
不 使 用 任何 参数 或 超时 的 值 来 调用 wait 方法 。 使 用 计时 wait 方法 的 线程 ( 即 ， 给 定 线程 
一 个 超时 的 值 ) 可 以 像 前 面 描述 的 一 样 通过 通知 唤醒 ， 或 者 在 超时 的 值 到 期 后 被 系统 在 某 一 
点 处 所 唤醒 。 一 旦 被 唤醒 ， 线程 将 重新 获取 锁 ， 并 继续 正常 地 执行 。 遗 憾 的 是 ， 无 法 确定 一 
个 线程 会 被 通知 还 是 超时 唤醒 。 线 程 离开 等 待 集合 的 第 三 种 方式 是 中 断 。 这 样 会 导致 抛 出 一 
个 InterruptedException 异常 ， 于 是 线程 中 的 控制 流 将 根据 处 理 异 常 的 正常 规则 进行 
异常 处 理 。 

现在 ， 我 们 继续 对 图 C-6 中 的 情况 进行 描述 。 线 程 在 某 一 点 处 等 待 并 被 唤醒 。 当 线程 被 
某 个 在 lockObject 上 执行 notify 或 者 notifyall 方 法 的 其 他 线程 所 唤醒 时 (或 者 被 
一 个 超时 )， 将 从 等 待 集合 中 移 除 线程 。 在 某 个 点 上 ， 将 调度 执行 它 ， 并 且 将 试图 重新 获取 与 
lockObiect 相关 联 的 锁 。 在 重新 获取 锁 后 ， 线 程 将 重新 检测 条 件 ， 如 果 不 满足 条 件 将 释放 
锁 并 再 次 等 待 ， 如 果 条 件 满 足 ， 则 执行 action 而 不 释放 锁 。 

程序 员 负 责 确保 在 条 件 已 经 建立 之 后 适当 通知 等 待 线程 ， 不 正确 的 处 理会 造成 程序 停止 
运行 。 下 面 的 代码 展示 了 在 程序 建立 条 件 后 ， 使 用 notifyAll 通知 所 有 线程 的 方法 : 


synchronized(lockObject) { 
establish_the_condition; 
lock0bject.notifyAll() 


在 标准 用 法 中 ，wait 方法 在 一 个 while 循环 体 中 调用 。 这 确保 在 执行 动作 之 前 将 重新 
检查 条 件 ， 并 且 大 大 增强 了 程序 的 健壮 性 。 我 们 不 应 当 通 过 将 while 循环 更 改 为 一 条 it 语 
句 来 节省 少量 的 CPU 周期 ， 另 外 ，while 循环 能 够 确保 额外 的 notify 方法 不 会 引起 错误 。 
因此 ， 我 们 可 以 在 任意 可 能 建立 条 件 的 地 方 使 用 notifyall 方 法， 然后 通过 仔细 分 析 来 消除 
一 些 不 必要 的 notifyAll 方法 。 在 某 些 程序 中 ， 可 以 使 用 notify 替换 notifyal1， 可 能 
会 使 程序 的 性 能 得 以 提高 。 但 是 ， 这 些 优 化 应 当 谨 慎 地 进行 。 在 5.9 节 中 有 一 个 这 样 的 示例 。 


C.5 $i 
当 按 前 面 章 节 中 所 描述 的 方式 直接 使 用 时 ， 同 步 块 以 及 wait 方法 和 notify 方法 在 语 
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义 方面 具有 某 些 缺陷 。 也 许 最 严重 的 问题 是 ， 不 存在 对 于 隐 式 锁 相 关联 的 状态 信息 的 访问 。 
这 意味 着 线程 在 尝试 获取 锁 之 前 无 法 确定 该 锁 是 否 可 用 。 男 外 ， 等 待 与 一 个 同步 块 相关 联 的 
锁 的 线程 阻塞 不 能 够 中 断 >。 另 一 个 问题 是 ， 与 每 一 个 锁 相关 的 ( 隐 式 ) 条 件 变量 只 有 一 个 。 
因此 ， 等 待 不 同 待 建立 条 件 的 线程 共享 同一 个 等 待 集合 ， 而 且 利 用 notify 方法 可 能 会 唤醒 
错误 的 线程 (于 是 强制 使 用 notifyAll 方法 )。 

因为 这 个 原因 ， 在 以 前 很 多 Java 程序 员 实现 它们 自己 的 锁 原 语 ， 或 者 使 用 第 三 方 包 ”， 例 如 


“util.concurrent [Leal], WH, java.util.concurrent.locks HERE 


ReentrantLock 锁 ， 它 们 与 同步 块 相 似 ， 但 是 具有 一 些 额 外 的 功能 。 该 锁 必 须 显 式 地 初始 
W, WF: 


//instantiate lock 
private final ReentrantLock lock = new ReentrantLock(); 


应 当 用 在 一 个 try-catch 模块 中 ,例如 : 


//critical section 

lock.lock(); // block until lock acquired 
try { critical_section } 

finally { lock.unlock(); } 


其 他 的 方法 允许 获取 关于 锁 的 状态 信息 。 这 些 锁 在 便利 的 语法 和 编译 器 的 某 些 支持 方面 
进行 权衡 〈 程 序 员 不 可 能 忘记 释放 与 一 个 同步 块 相 关联 的 锁 )， 以 获得 更 好 的 灵活 性 。 

另外 ， 该 包 提 供 了 新 的 condition 接口 的 实现 ， 该 接口 实现 一 个 条 件 变 量 。 这 使 得 
多 个 条 件 变 量 关 联 于 单个 锁 。 通 过 调用 锁 的 newCondition 方 法 可 以 获得 与 一 个 锁 相 关 
联 的 一 个 Condition。 与 wait、notify 和 notifyAll 类 似 的 是 await、signal 和 
signalAll, 在 图 C-7 中 展示 了 一 个 使 用 这 些 新 类 来 实现 一 个 共享 队列 ( 就 像 5.9 节 中 所 描 
述 的 一 样 ) 的 示例 。 







import java.util.*; 
import java.util.concurrent.*; 
import java.util.concurrent.locks.*; 






class SharedQueue2 { 
class Node 
{ Object task; 
Node next; 











Node(Object task) 
{this.task = task; next = null;} 





wi 










private Node head = new Node(null); 
private Node last = head; 





Lock lock = new ReentrantLock() ; 
final Condition notEmpty = lock.newCondition() ; 





图 C-7 使 用 Lock Ñ Condition 的 SharedQueue2 (参考 5.9 $5) 的 一 个 版 本 ， 
该 版 本 并 没有 使 用 wait M notify 同步 块 


O 这 将 在 下 一 节 深 入 讨论 。 


© ”如果 一 个 锁 可 以 被 同一 个 线程 多 次 获取 而 不 产生 死 锁 ， 则 该 锁 是 可 重复 进入 的 。 


i 


public void put(Object task) 
{ //cannot insert null 
assert task != null: "Cannot insert null task"; 
lock. lock() ; 
try{ Node p = new Node(task); last.next = p; last = p; 
notEmpty.signalAll(); 
) finally{lock.unlock() ;} 


} 


public Object take() 
( //returns first task in queue, waits if queue is empty 
Object task = null; 
lock.lock() ; 
try { 
while (isEmpty()) 
{ try{ notEmpty.await(); } 
catch(InterruptedException error) 
{ assert false:"sq2: no interrupts here"; } 
} 
Node first = head.next; task = first.task; first.task = null; 
head = first; 
} finally{lock.unlock() ;} 
return task; 
} 
private boolean isEmpty(){return head.next == null;} 


} 





图 C-7 ( 续 ) 


C6 其 他 同步 机 制 和 共享 数据 结构 


与 Java 相 比 ，OpenMP 具有 与 同步 块 相似 的 结构 C 锁 和 临界 区 )， 但 缺少 与 wait 和 
notify 相似 的 功能 。 这 是 因为 OpenMP 提供 的 是 在 并 行 编程 中 常用 的 更 高 级 别 的 结构 ， 而 
不 是 像 在 Java 中 使 用 的 更 加 通用 的 方法 。 我 们 可 以 非常 容易 地 使 用 一 些 可 用 的 功能 来 实现 大 
量 高 级 结构 。 另 外 ，java.util.concurrent 包 提供 几 种 较 高 级 的 同步 原 语 和 共享 数据 结 
构 。 这 些 同步 原 语 包括 CountDownLatch (一 个 简单 的 单 用 途 栅栏 ， 它 将 阻塞 线程 直到 给 
定数 目的 线程 到 达 该 栅栏 ) CyclicBarrier (一 个 周期 栅栏 ， 当 线程 通过 之 后 将 自动 重 置 ， 
这 样 方便 多 次 使 用 ， 例如， 在 循环 中 ) M Exchanger ( 它 使 两 个 线程 在 一 个 同步 点 处 交换 
对 象 )。6.3.2 ÉX CountDownLatch 和 CyclicBarrier 做 了 详细 的 讨论 。 

在 图 C-8 中 展示 了 一 个 基于 循环 的 非常 简单 的 程序 ， 同 时 在 图 C-9 中 展示 了 一 个 并 行 版 
本 。 这 与 附录 A 中 的 示例 是 相似 的 。 | 


class SequentialLoop { 
Static int num iters - 1000; 
static double[] res = new double[num, iters]; 
Static double answer = 0.0; 


static void combine(int i){ 
static double big comp(int i){ 


public static void main(String[] args) 

( for (int i = 0; i < num iters; i**)( res[i] = big comp(i); } 
for (int i = 0; i < num iters; i++){ combine(i);) 
System.out.println(answer)); 





图 C-8 一 个 类 似 于 图 A-5 中 基于 循环 的 简单 串 行程 序 
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import java.util.concurrent.*; 
class ParallelLoop { 


static ExecutorService exec; 
static CountDownLatch done; 
static int num_iters = 1000; 
static double[] res = new double[num, iters]; 
Static double answer = 0.0; 


static void combine(int i){ 
static double big_comp(int i){ 


public static void main(String[] args) throws InterruptedException 
{ /*create executor with pool of 10 threads */ 
exec = Executors.newFixedThreadPool (10) ; 


/*create and initialize the countdoum latch*/ 
done = new CountDownLatch(num iters); 


long startTime = System.nanoTime(); 
for (int i = 0; i «.num iters; i++) 
( //only final local vars can be referenced in an anonymous class 
final int j = i; 
/*pass the executor a Runnable object to ezecute the loop 
body and decrement the CountDoumLatch */ 
exec.execute(new Runnable(){ 
public void run() 
{ res[j] = big comp(j); 
done.countDown(); /*decrement the CountDownLatch*/ 


done.await(); //wait until all tasks have completed 


/*combine results. using sequential loop*/ 
for (int i = 0; i < num_iters; i++){ combine(i); } 
System. out.println(answer) ; 


/*cleanly shut doum thread pool*/ 
exec.shutdown(); 





图 C-9 ”这 个 程序 展示 了 图 C-8 中 串 行 程序 的 一 个 并 行 版 本 ， 其 中 big-comp 循环 的 每 次 迭代 都 是 一 个 
独立 的 任务 。 程 序 使 用 了 一 个 包含 10 个 线程 的 线程 池 来 执行 这 些 任务 , 使 用 了 CountDownLatch 
以 确保 所 有 任务 在 执行 〈 仍然 是 串 行 的 ) 组 合 结果 的 循环 之 前 已 经 完成 


java.util.concurrent 包 也 提供 了 共享 队列 模式 的 几 种 实现 和 一 些 线程 安全 的 Collection 
类 ， 包 括 ConcurrentHashMap, CopyOnWriteArrayList flCopyOnWriteArraySet, 


C.7 中断 


中 断 是 线程 的 一 个 状态 。 可 以 使 用 interrupt 方法 来 中 断 线程 。 这 个 方法 将 线程 的 中 
断 状 态 设 置 为 “被 中 断 ”。 

如 果 线 程 被 挂 起 ( 也 就 是 说 ,线程 执行 了 wait、sleep、join 或 者 其 他 能 挂 起 线程 
的 命令 )， 挂 起 就 会 造成 中 断 ， 并 抛 出 InterruptedException 异常 。 因 此 ， 能 造成 阻 
塞 的 方法 (如 wait) 就 会 抛 出 这 个 异常 ， 所 以 必须 在 一 个 声明 了 能 够 抛 出 这 个 异常 的 方法 
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中 调用 这 些 方法 ， 或 者 将 这 些 方法 的 调用 封装 在 一 个 try-catch Bet. AW Thread 类 和 
Runnable HOW run 方法 不 抛 出 这 个 异常 ， 所 以 必须 用 try~catch 块 来 封装 (Xie 
直接 的 还 是 间接 的 ) 线程 对 阻塞 方法 的 调用 。 但 这 对 主线 程 无 效 ， 因 为 main 方法 可 以 抛 出 
InterruptedException 异常 。 | 

线程 的 中 断 状 态 可 用 于 说 明 线 程 应 当 终 止 。 为 了 实现 这 个 功能 ， 线 程 的 run 方法 应 当 设 
置 为 周期 性 地 检测 〈 使 用 isInterrupted 方法 或 者 interrupted 方法 ) 线程 中 断 状态 ; 
如 果 线 程 已 经 中 断 ， 线 程 应 当 以 旧 方 式 从 它 的 run 方法 中 返回 。 如 果 线 程 在 等 待 的 过 程 中 中 
W, ABA InterruptedException 异常 应 该 被 捕获 ， 并 使 用 处 理 程序 确保 线程 正确 终止 。 
在 大 部 分 并 行程 序 中 ， 都 不 需要 对 线程 进行 外 部 终止 ， InterruptedException 异常 的 
catch 块 要 么 用 于 提供 调试 信息 ， 要 人 么 不 进行 任何 操作 。 

引入 Callable 接口 以 替代 Runnable 接口 ， 该 接口 允许 抛 出 异常 (另外 ， 像 前 面 已 
经 讨论 过 的 ， 它 还 允许 返回 结果 )。 同 时 ， 这 个 接口 支持 泛 型 类 型 。 
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Abstract Data Type, ADT ( 抽象 数据 类 型 ) 由 一 些 值 和 在 这 些 值 上 的 可 用 操作 所 组 成 的 数据 类 型 。 这 
些 值 和 操作 独立 于 特定 的 值 的 表示 或 者 操作 的 实现 。 在 那些 直接 支持 ADT 的 语言 中 ， 这 些 数据 类 型 
的 操作 在 接口 中 体现 ， 而 这 些 操作 的 实现 对 用 户 来 说 是 不 透明 的 。 原 则 上 ， 这 些 实现 也 可 以 在 不 影响 
使 用 类 型 的 客户 的 前 提 下 修改 。 关 于 ADT 最 经 典 的 例子 就 是 栈 ( 栈 是 有 它 的 操作 定义 的 )， 典 型 的 栈 
包括 push 和 pop 操作 。 栈 内 部 实现 有 可 能 会 非常 不 同 。 

abstraction ( 抽象 ) 这 个 概念 在 不 同 的 上 下 文中 有 不 同 的 含义 。 在 软件 中 ， 它 通常 意味 着 组 合 一 个 
小 型 操作 或 者 数据 集合 ， 并 对 其 命名 。 比 如 ， 控 制 抽象 就 把 一 组 操作 结合 进 一 个 过 程 ， 然 后 给 这 个 
过 程 命 名 。 再 举 一 个 例子 ， 在 面向 对 象 编程 中 类 就 是 一 个 包含 数据 和 控制 的 抽象 。 更 加 一 般 地 说 ， 
一 个 抽象 是 捕获 实体 的 基本 特性 的 一 个 表示 ， 但 是 它 隐 藏 了 特定 的 细节 。 我 们 将 经 常 谈 论 一 个 已 经 
命名 的 抽象 而 不 关心 它们 的 实际 细节 ， 因 为 细节 可 能 是 不 确定 的 。 

adress space ( 地 址 空间 ) 进程 或 者 处 理 器 可 以 访问 的 地 址 范围 。 根 据 情 况 ， 这 里 要 么 指 物理 内 存 要 
么 指 虚拟 内 存 。 

ADT 参考 abstract data type。 

Amdahl’s law (Amdahl 定律 ) 阅 述 最 大 加 速 比 的 定律 ， 在 某 些 条 件 下 (参见 2.5 章节 )， 在 一 个 
有 P 个 处 理 器 的 系统 上 运行 某 个 算法 能 得 到 的 最 大 加 速 是 : 


T(1) 


^it mir rU RN 
(Lyr) 








AF, y 是 一 个 程序 的 串 行 部 分 ，7 (7 ) 是 运行 在 nn 个 处 理 器 上 的 总 执行 时 间 ， 参 考 speedup fe serial 
fraction。 

AND parallelism (“ 与 ”并 行 性 ) 一 种 将 并 行 性 引信 逻辑 语言 的 主要 技术 。 考 虑 目标 A:B,C,D( 读 作 : 
A 跟随 着 B 和 C 和 D )， 意 思 是 当 且 仅 当 次 级 目标 B、C、D 都 成 功 目标 A 才 成 功 。 在 “与 ”并 行 性 中 ， 
次 级 目标 B、C、D 使 用 并 行 方法 进行 求 值 。 

API 参考 application programming interface。 

API ( 应 用 程序 编程 接口 ) 定义 了 为 使 用 某 个 软件 模块 所 提供 的 服务 ， 另 一 个 软件 模块 (通常 是 应 用 程 
HF) 所 需要 使 用 的 调用 约定 和 其 他 信息 。MPI 就 是 并 行 编程 的 API。 有 时 候 这 个 术语 可 能 会 被 程序 员 
不 严格 地 用 来 定义 表示 程序 中 的 某 个 特定 功能 的 符号 。 比 如 ，OpenMP 规范 称 为 API。API 的 一 个 重 
要 方面 是 ， 使 用 它 编写 的 程序 可 以 在 支持 这 种 API 的 系统 上 重新 编译 并 运行 。 

atomic ( 原子 性 ) 原子 性 在 不 同上 下 文中 有 细微 差别 。 硬 件 等 级 上 的 一 个 原子 操作 是 不 可 中 断 的 ， 如 
load、store， 以 及 test-and-set 指令 。 在 数据 库 领 域 ， 一 个 原子 操作 (或 者 称 作 事 务 ) 是 一 种 要 么 完全 
执行 ， 要 么 完全 不 执行 的 操作 。 在 并 行 编程 中 ， 原 子 操作 是 提供 了 足够 同步 且 不 会 被 其 他 UE 打 断 的 
操作 。 原 子 操作 也 必须 保证 能 够 终止 (比如 ， 没 有 无 限 循环 )。 

autoboxing ( 自动 装 箱 ) 在 Java 2 1.5 中 可 以 使 用 的 一 种 语言 特性 ， 它 提供 了 从 基本 数据 类 型 到 对 应 封 
闭 类 型 的 原子 性 的 自动 转换 ， 比 如 ， 从 int 转换 为 Integer. 

bandwidth ( #3) 系统 的 性 能 之 一 ,通常 用 表达 系统 每 秒 所 处 理 的 条 目 。 在 并 行 计算 中 ,带宽 常常 表 
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示 每 秒 可 以 通过 网 络 链接 的 字 节 数 。 一 个 会 产生 少量 大 消息 的 并 行程 序 可 能 会 因为 网 络 的 带宽 而 被 限 
制 ， 在 这 种 情况 下 ， 这 种 程序 称 为 带宽 受 限 程序 。 参 考 bisection bandwidth. 

barrier( 栅栏 ) 在 一 组 UE 上 使 用 的 一 种 同步 机 制 ， 直 到 所 有 UE 都 达到 栅栏 后 才 有 UE 会 继续 执行 。 
换 句 话说 ，UE 达到 栅栏 后 将 被 挂 起 或 者 阻塞 ， 当 所 有 UE 到 达 后 ， 它 们 将 继续 运行 。 

Beowulf cluster ( Beowulf 集群 ) 一 个 由 运行 Linux 操作 系统 的 PC 组 成 的 集群 。 当 Beowulf 集群 在 20 
世纪 90 年 代 首 次 建立 起 来 之 前 ， 集 群 已 经 很 好 地 发 展 起 来 了 ， 但 是 这 些 早 于 Beowulf 集群 的 集群 运 
行 的 是 UNIX AZ. Beowulf 集群 通过 降低 集群 的 硬件 成 本 ， 极 大 增加 了 集群 应 用 。 | 

bisection bandwidth ( 对 分 带宽 ) 一 些 节点 的 两 个 等 大 小 分 区 之 间 的 网 络 双 回 容量 。 这 个 网 络 是 在 每 
个 对 分 网 络 的 最 案 点 进行 划分 的 。 

broadcast ( 广播 ) 把 一 条 消息 传 给 一 个 接收 组 内 所 有 接收 者 ， 通 常 所 有 UE 都 会 参与 计算 。 

cache ( 缓存 ) 一 个 相对 较 小 、 访 存 比 计算 机 的 主 存 快 得 多 的 内 存 区 域 。 因 为 处 理 器 性 能 要 比 计算 机 
的 主 存 高 很 多 ， 所 以 由 一 级 或 者 多 级 缓存 组 成 的 缓存 架构 在 现代 操作 系统 中 是 必需 的 。 当 数据 在 使 用 
前 载 人 缓存 ， 同 时 这 些 数据 将 会 在 计算 过 程 中 使 用 多 次 时 ， 处 理 器 将 会 高 速 运行 。 数 据 以 缓存 行 形式 
(大 小 以 字 节 计 ) 在 缓存 和 计算 机 主 存 之 间 移 动 。 当 访问 内 存 映 射 到 缓存 的 任何 一 个 字 节 时 ， 整 个 组 
存 行 就 会 移动 。 当 缓存 被 使 用 完毕 ， 并 且 其 他 数据 需要 空间 或 者 数据 要 被 某 些 其 他 处 理 器 访问 时 ， 绥 
存 行 会 根据 某 种 协议 从 缓存 中 移 除 。 通 常情 况 下 ， 每 个 处 理 器 都 有 自己 的 缓存 (尽管 多 处 理 器 会 共享 
某 一 级 缓存 )， 所 以 保持 缓存 一 致 性 ( 即 ， 保 证 所 有 的 处 理 器 看 到 的 内 存 内 容 是 一 致 的 ) 是 一 个 计算 
机 架构 师 和 编译 器 作者 必须 解决 的 问题 。 程 序 员 在 优化 软件 性 能 时 必须 意识 到 缓存 问题 。 

ccNUMA 缓存 一 致 性 NUMA。 数 据 在 各 级 缓存 中 都 具有 一 致 性 。 参 考 NUMA. 

cluster ( 集群 ) 集群 是 指 连接 起 来 用 做 并 行 计算 机 的 不 同 计算 机 的 任何 集合 ,或 者 用 来 形容 为 了 高 可 
靠 性 而 构造 的 一 个 元 余 系 统 。 集 群 中 的 计算 机 没有 特别 为 集群 计算 和 云 设计 ， 从 原则 上 讲 ， 这 些 计算 
机 可 以 独立 用 作 单 独 的 计算 机 。 换 句 话 说 ， 组 成 集群 的 组 件 ( 包括 计算 机 和 连接 它们 的 网 络 ) 并 没有 
为 集群 而 定制 。 这 样 的 例子 包括 以 太 网 连接 的 工作 站 网 络 和 安装 在 机 架 上 用 于 并 行 计 算 的 工作 站 。 参 
考 workstation farm。 

collective communication ( 集合 通信 ) 需要 一 组 UE 完成 的 高 级 操作 ， 它 的 核心 任务 是 在 UE 间 协 作 
交换 信息 。 这 种 高 级 操作 可 能 只 是 单纯 的 通信 事件 ( 比如 ,广播 ) 或 者 这 项 工作 也 涉及 计算 (ein, 1H 
约 )。 参 考 broadcast、reduction。 

concurrent execution ( 并 发 执行 ) 指 两 个 或 者 多 个 UE 同时 有 效 并 同时 进行 的 情况 。 这 些 UE SEA [n] 
时 工作 在 不 同 PE 上 ， 要 么 在 同一 PE 上 交替 进行 。 

concurrent program ( 并 发 程序 ) 有 多 个 控制 轨迹 ( 线程、 进程 等 ) BRUIT. 

condition variable ( 条 件 变量 ) 条 件 变 量 是 监控 同步 机 制 的 一 部 分 。 在 监控 条 件 满足 某 些 特定 条 件 前 ， 
条 件 变量 用 来 延迟 进程 或 者 线程 的 运行 。 当 条 件 变 成 真 时 ， 它 也 用 来 唤醒 一 个 延迟 的 进程 。 与 每 个 条 
件 变 量 相关 联 的 是 一 组 挂 起 的 (延迟 的 ) 等 待 进程 或 线程 。 对 于 一 个 条 件 变 量 ， 可 以 实施 的 操作 包括 
wait (把 特定 进程 或 者 线程 加 入 等 待 这 个 变量 的 集合 中 ) 和 signal 或 者 notify (唤醒 等 竺 集合 
中 的 进程 或 者 线程 )。 人 参考 monitor. 

copy on write ( 写 时 复制 ) 一 种 使 用 最 少量 同步 操作 并 确保 并 发 线程 看 到 一 致 数据 结构 的 技术 。 在 这 
种 技术 中 ， 为 了 更 新 数据 结构 ， 首 先 需要 复制 ， 修 改 针 对 复制 项 进行 ; 然后 指 癌 旧 结构 的 引用 被 自动 
替换 为 一 个 指向 新 结构 的 引用 。 这 就 意味 着 一 个 拥有 持 有 指向 旧 结 构 引 用 的 线程 会 继续 读 以 前 的 版 本 
(这 个 版 本 是 一 致 的 )， 但 没有 线程 会 看 到 结构 的 不 一 致 状态 。 只 有 当 获 取 和 更 新 结构 引用 时 才 需 要 同 
步 ， 以 进行 串 行 更 新 。 | 

counting semaphore ( 统计 信号 量 ) 一 种 可 以 用 任意 整数 表示 其 状态 的 信号 量 。 一 些 统计 信和 号 量 通过 
P 和 V 操作 完成 对 状态 ( 以 原子 方式 ) 递增 或 递减 一 个 整数 。 人 参考 semaphore. 

cyclic distribution ( 周期 分 配 法 ) 一 种 针对 数据 ( 比如 ， 数 组 中 的 元 素 ) 或 者 任务 ( 比如 ， 和 迭代 ) 的 分 配 
方法 ， 这 种 分 配方 法 将 集合 划分 成 比 UE 数量 多 的 小 块 ， 接 着 把 这 些 块 循环 像 分 发 扑克 一 样 分 配给 UE. 
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data parallel ( 数据 并 行 ) 数据 并 行 是 一 类 并 行 计算 。 这 种 类 型 的 并 行 计算 把 并 发 描述 为 使 用 一 条 指令 
流 同 时 操作 数据 结构 的 多 个 元 素 。 

deadlock ( 死 锁 ) 并 行 编程 中 的 一 种 常见 错误 条 件 ， 其 意思 是 计算 因 UE 互相 堵塞 而 停止 执行 ， 多 个 
UE 相互 等 待 对 方 执行 完成 而 阻塞 。 

design pattern ( 设计 模式 ) 一 种 “在 特定 上 下 文中 问题 的 解决 方案 "。 它 代表 一 种 对 设计 中 重复 发 生 
问题 的 高 质量 的 解决 方案 。 

distributed computing ( 分 布 式 计算 ) 一 种 把 计算 任务 分 割 成 若干 子 任务 并 在 多 台 计 算 机 上 执行 的 计算 
方式 。 实 现 分 布 式 计算 的 网 络 一 般 是 通用 网 络 (LAN, WAN 或 者 Internet) 链接 的 集群 ， 而 不 是 使 用 
专用 网 络 互 连 的 集群 。 

DSM ( 分 布 式 共 享 内 存 ) 由 不 同 且 分 布 式 的 内 存 组 成 的 内 存 子 系统 ， 并 可 被 多 个 UE 共享 。 存 在 很 多 
支持 分 布 式 共享 内 存 系统 的 操作 系统 和 硬件 ， 或 者 使 用 软件 作为 中 间 层 也 可 实现 分 布 式 共 享 内 存 。 参 
考 Virtual shared memory。 

DSM 参考 distributed shared memory. 

eager evaluation ( 热情 计算 ) 一 种 调度 策略 ， 这 种 策略 要 求 在 判断 表达 式 或 者 程序 的 所 有 参数 后 〈 而 
不 是 之 前 ) 马上 开始 执行 。 热 情 计 算 对 于 大 多 数 编程 环境 是 非常 典型 的 计算 方式 ， 与 之 相对 的 是 惰性 
计算 。 当 一 个 参数 不 会 在 计算 中 真正 使 用 但 必须 计算 时 ， 热 情 计 算 会 导致 额外 工作 (这些 工作 有 时 其 
至 是 无 法 终结 的 )。 

efficiency ( 效率 ) 加 速 比 除 以 PE WRA CP) 所 得 到 的 值 。 它 的 定义 如 下 : 

E(P)= Ls 

其 用 于 表明 并 行 计算 机 中 资源 的 使 用 情况 。 

embarrassingly parallel (AFT) 任务 间 完 全 独立 的 一 种 任务 并 行 算法 。 参 考 task parallelism 模式 。 

explicitly parallel language ( 显 式 并 行 语言 ) 指 程序 员 可 以 完全 定义 并 发 性 以 及 在 并 行 计算 中 如 何 实 
现 这 种 并 发 性 的 一 种 编程 语言 。 OpenMP, Java 和 MPI 就 是 显 式 并 行 语言 。 

factory ( 工厂 ) 一 种 具有 创建 对 象 的 方法 的 类 ， 它 通常 是 一 个 抽象 基 类 的 任何 一 个 子 类 的 实例 。 工 厂 
类 的 设计 模式 〈 抽象 工厂 和 工厂 方法 ) 在 [GHJV95] 中 给 出 。 

false sharing ( 伪 共 享 ) 当 两 个 语义 上 不 依赖 的 变量 被 放置 在 同一 缓存 行 ， 并 且 运 行 在 多 个 处 理 器 中 
UE 修改 它们 时 会 导致 伪 共 享 。 发 生 伪 共 享 的 变量 是 语义 独立 的 ， 所 以 它们 在 内 存 中 没有 冲突 ,但 是 
保存 变量 的 缓存 行 会 在 处 理 器 间 不 停 移动 ， 因 此 会 严重 影响 性 能 。 

fork ( 派生 ) 参考 fark/join。 

fork/join ( 派生 /聚合 ) 派生 /聚合 是 一 个 用 于 多 线程 API ( 如 OpenMP ) 的 编程 模型 。 一 个 线程 执 
行 fork 操作 派生 新 线程 ， 这 些 线程 (在 OpenMP 中 称 为 线程 组 ) 并 发 执行 。 当 线程 组 的 成 员 完成 
其 任务 后 ， 执 行 join 操作 并 被 挂 起 ， 直 到 线程 组 的 所 有 成 员 都 执行 到 join 操作 。 此 时 ， 新 线程 被 销 
毁 ， 原 始 线程 继续 运行 。 

framework ( 框架 ) 一 个 可 重用 、 体 现 了 特定 领域 的 应 用 程序 设计 、 部 分 完成 的 程序 。 程 序 员 可 通过 提 
供应 用 程序 专用 的 组 件 来 完成 程序 。 

future variable ( 未 来 变量 ) 在 某 些 并 行 环境 中 用 于 协调 UE 执行 的 机 制 。 未 来 变量 是 一 种 保存 异步 计 
算 最 后 结果 的 专用 变量 。 比 如 ，Java (在 java.util.concurrent 包 中 ) 就 包含 Future 类 以 保 
存 未 来 变量 。 

generics ( 泛 型 ) 一 种 编程 语言 特性 ， 可 以 为 某 些 特定 实体 (一 般 是 数据 类 型 ) 保留 占 位 符 。 泛 型 组 
件 的 定义 要 在 泛 型 使 用 前 完成 。Ada、C++ 和 Java 中 都 有 泛 型 。 

grid ( 网 格 ) 一 种 分 布 式 计算 和 资源 共享 结构 。 一 -个 网 格 系统 由 一 系列 被 局 域 网 或 广域网 (通常 是 互联 网 ) 
连接 的 异 构 资 源 集合 构成 。 这 些 独立 的 资源 都 是 平常 使 用 的 计算 资源 ， 包 括 计算 服务 器 、 存 储 、 应 用 服 
Fir, HAMS, LER. HUA HH Web 服务 实现 ， 并 且 集 成 对 网 格 提供 一 致 接口 的 中 间 件 。 
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网 格 和 集群 不 同 ， 网 格 中 的 资源 不 由 单个 管理 节点 控制 ， 而 是 由 网 格 中间 件 管理 整个 系统 ， 因 此 网 格 上 
各 种 资源 的 控制 和 资源 域 的 使 用 策略 由 资源 拥有 者 决策 。 

heterogeneous ( RH) 由 多 种 不 同 组 件 构 成 的 系统 。 比 如 ， 一 个 由 不 同类 型 处 理 带 构成 的 分 布 式 系统 。 

homogeneous ( A+) 由 相同 类 型 的 组 件 组 成 的 系统 。 

hypercube ( ELA) 一 种 把 节点 放置 在 d 维 立 方 体 项 点 的 多 计算 机 系统 。 最 和 常见 的 配置 是 二 进 制 超 立 
Ji, 共有 2” 个 节点 ， 每 一 个 节点 都 和 其 他 个 节点 相连 。 

implicitly parallel language ( 隐 式 并 行 语言 ) 程序 并 行 区 域 的 判断 以 及 并 发 性 的 实现 都 由 编译 器 实现 
的 并 行 编程 语言 。 大 多 数 并 行 功 能 和 数据 流 语 言 是 隐 式 并 行 语言 。 

incremental parallelism ( 递增 并 行 性 ) 一 种 将 现 有 系统 并 行 化 的 技术 。 这 项 技术 作为 递增 更 改 序列 将 
并 行 化 引入 系统 ， 一 次 并 行 化 一 个 循环 。 紧 随 每 次 改变 的 是 对 程序 的 详细 测试 ， 以 保证 程序 行为 和 原 
始 程序 相同 ， 这 样 极 大 地 减少 了 引信 未 知 bug 的 机 会 。 参 考 refactoring. 

Jave Virtual Machine, JVM ( Java 虚拟 机 ) 一 个 基于 栈 的 抽象 计算 机 ， 其 指令 为 Java 字 节 码 。 通 常 ， 
Java 程序 被 编译 成 包含 Java 字 节 码 、 符 号 表 和 其 他 信息 的 类 文件 。JVM 的 目的 是 为 类 文件 提供 一 个 
不 需要 关注 底层 平台 的 统一 执行 环境 。 

join ( 派生 ) BF fork/join. 

JVM 参考 Java Virtual Machine. 

latency( 延迟 ) 响应 一 个 请 求 的 固定 成 本 ， 比 如 ， 发 送 一 条 消息 或 者 从 磁盘 上 读 取 信息 。 在 并 行 计算 中 ， 
这 个 词 经 常用 来 描述 在 通信 介质 中 发 送 一 条 空 消 息 所 需要 的 时 间 ， 即 从 调用 发 送 例 程 到 空 消息 被 接收 
方 接收 所 需要 的 时 间 。 如 果 程 序 产 生 大 量 小 消息 ， 那 么 将 会 对 延迟 非常 敏感 。 因 此 ， 这 类 程序 也 称 作 
延迟 敏感 程序 。 | 

lazy evaluation ( 情 性 求 值 ) 一 种 调度 策略 ， 即 在 表达 式 (或 者 调用 过 程 ) 的 计算 结果 使 用 之 前 , :不 会 
计算 这 些 内 容 。 惰 性 求 值 可 避免 不 必要 的 工作 ， 并 在 有 些 情况 下 会 终止 一 个 正常 情况 下 不 会 终止 的 计 
算 。 惰 性 求 值 经 常用 来 进行 功能 编程 或 者 逻辑 编程 。 

Linda 并 行 编程 的 一 种 协同 语言 。 参 考 tuple space. 

load balance ( 负载 均衡 ) 在 并 行 计算 中 ， 把 任务 交 给 UE， 然 后 再 映射 到 PE 上 执行 。PE 集合 所 执行 
的 工作 是 与 该 计算 相关 的 “负载 "。 负 载 均衡 就 是 如 何 将 负载 尽 可 能 平均 分 配 到 PE 上 。 一 个 高 效 的 
并 行程 序 中 ， 负 载 是 均衡 的 ， 这 样 每 个 PE 的 计算 时 间 将 大 致 相同 。 换 句 话 说 ， 一 个 具有 良好 负载 均 
衡 的 程序 中 ， 每 个 PE 完成 任务 的 时 间 大 致 相同 。 

load balancing ( 负载 均衡 方法 ) 负载 均衡 方法 是 指 将 任务 分 配 到 UE 中 ， 使 得 每 个 参加 并 行 计 算 的 
UE 完成 任务 的 时 间 大 致 相等 。 有 两 种 负载 均衡 的 方法 : 静态 负载 均衡 ， 即 任务 分 配 在 计算 开始 之 前 
就 已 经 完成 ; 动态 分 配 ， 即 负载 量 会 随 着 计算 的 进行 而 改变 ， 任 务 分 配 在 运行 时 进行 。 

locality ( 局 部 性 ) 指 PE 使 用 与 其 相关 联 的 数据 ( 离 该 PE 近 的 数据 ) 完成 计算 任务 。 比 如 ， 对 于 很 
多 稠密 线性 代数 问题 ， 获 得 高 性 能 的 关键 是 将 矩阵 拆 分 成 小 块 ， 并 使 用 这 些小 块 进行 计算 。 这 样 被 
载 人 内 存 缓存 中 的 数据 就 能 重用 。 这 是 一 个 改变 算法 从 而 提高 局 部 性 的 例子 。 

Massively Parallel Processor，MPP ( 大 规模 并 行 处 理 器 ) 一 种 设计 规模 至 少 为 几 百 个 处 理 器 的 分 布 
式 内 存 并 行 计 算 机 。 为 了 使 计算 机 具有 更 好 的 可 扩展 性 ，MPP 机 器 的 计算 单元 或 者 节点 会 定制 的 。 
这 通常 包含 计算 单元 和 可 扩展 网 络 的 紧密 集成 。 

Message Passing Interface, MPL ( 消息 传递 接口 ) 一 种 被 大 多 数 MPP 厂商 和 集群 计算 社区 采用 的 标 
准 消 息 传递 接口 。 该 接口 的 存在 极 大 增加 了 程序 的 可 移植 性 ， 在 一 个 平台 上 开发 的 基于 MPI 的 程序 
也 应 该 能 在 任何 有 MPI 实现 的 机 器 上 运行 。 

Multiple Instruction, Multiple Data, MIMD ( 多 指令 流 多 数据 流 ) Flynn 分 类 法 中 计算 机 架构 的 一 种 。 
f£ MIMD 系统 中 ， 每 个 PE 有 自己 的 指令 流 去 操作 其 自己 的 数据 。 大 量 的 现代 并 行 系统 使 用 MIMD 
架构 。 

monitor ( 监控 器 ) 一 个 由 Hoare [Hoa74] 提出 的 同步 机 制 。 一 个 监控 器 是 一 个 ADT 实现 ， 这 样 能 够 保 
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证 在 获取 数据 的 时 候 互 斥 。 条 件 同 步 在 条 件 变 量 中 有 描述 。 参 考 condition variable. 

MPI 24 Message Passing Interface. 

MPP 2% massively parallel processor. 

multicomputer ( 多 计算 机 ) 基于 MIMD 和 分 布 式 内 存 并 行 架 构 的 并 行 计 算 机 。 从 用 户 角度 看 ， 整 个 系 
统 就 好 像 是 一 台 计 算 机 。 

multiprocessor ( 多 处 理 器 ) 多 个 处 理 器 共享 地 址 空间 的 并 行 计算 机 。 

mutex (BARK) 互 斥 体 是 一 种 互 斥 锁 ， 可 以 串 行 化 多 线程 执行 。 

node ( 节点 ) 常用 于 描述 组 成 分 布 式 内 存 并 行 计 算 机 的 计算 单元 。 每 个 节点 有 目 己 的 存储 器 和 至 少 一 
个 处 理 器 ， 也 就 是 说 ， 节 点 既 可 以 是 单 处 理 器 也 可 以 是 某 种 多 处 理 器 。 

NUMA 一 个 用 于 描述 共享 内 存 计 算 机 系统 的 术语 ， 在 这 种 计算 机 系统 中 ， 内 存 的 访问 距离 对 于 所 有 处 
理 器 来 说 不 是 均等 的 。 因 此 ,访问 内 存 的 不 同位 置 所 需要 的 时 间 是 不 一 致 的 。 程 序 员 为 了 获得 较 高 性 
能 通常 需要 关注 数据 在 内 存 中 的 位 置 。 | 

opaque type ( 不 透明 类 型 ) 一 种 可 以 在 不 需要 知道 其 内 部 表示 方式 的 情况 下 使 用 的 类 型 。 不 透明 类 型 
的 实例 都 可 以 通过 已 定义 的 接口 创建 和 使 用 。MPI 消息 域 和 OpenMP 的 锁 就 是 不 透明 数据 类 型 的 典型 
例子 。 

OpenMP 一 种 为 表示 Fortran 和 C/C++ 程序 的 共享 内 存 并 行 性 ， 而 定义 编译 制导 指令 、 库 例 程 和 环境 
变量 的 编程 规范 。OpenMP 可 以 在 很 多 平台 上 实现 。 

OR parallelism (“或 ”并 行 性 ) 并 行 逻辑 语言 中 的 一 种 执行 技术 。 通 过 使 用 这 种 技术 ， 多 个 从 名 可 并 
行 执行 。 比 如 ， 一 个 问题 有 两 个 从 句 : A:B,C 和 RA:E,EF。 这 些 从 名 能 并 行 执行 ， 直 到 其 中 一 个 成 功 。 

parallel file system ( 并 行文 件 系统 ) 对 系统 中 任意 一 个 处 理 器 可 见 并 可 被 多 UE 同时 读 写 的 文件 系统 。 
尽管 并 行文 件 系统 在 整个 计算 机 系统 看 来 是 单个 文件 系统 ， 但 是 它 实 际 上 分 布 在 多 个 磁盘 上 。 另 外 ， 
并 行文 件 系统 的 读 写 操作 的 总 吞吐 量 必 须 是 可 扩展 的 。 

parallel overhead ( 并 行 开销 ) 在 并 行 计算 中 ， 花 费 在 并 行 管理 而 不 是 在 计算 上 的 时 间 。 其 中 包括 线程 
创建 、 调 度 、 通 信 以 及 同步 。 

PE 参考 processing element。 

peer-to-peer computing ( 端 到 端 计算 ) 各 个 节点 地 位 都 相同 的 一 种 分 布 式 计算 模型 。 在 这 种 术语 所 描 
述 的 最 典型 的 计算 中 ， 每 个 节点 都 提供 相同 的 功能 ， 同 时 任何 节点 可 以 启动 一 个 与 其 他 节点 的 会 话 通 
信 。 与 之 相对 的 ， 比 如 CS 计算 模型 。 端 到 端 计算 中 共享 的 功能 包括 计算 及 文件 共享 。 

POSIX M IEEE 计算 机 协会 的 可 移植 应 用 程序 标准 协会 (PASC ) 定义 的 可 移植 操作 系统 接口 。 虽 然 其 
他 操作 系统 也 使 用 POSIX 的 一 些 标 准 ， 但 这 个 术语 主要 指 的 是 为 UNIX 和 类 UNIX (如 Linux ) 操作 
系统 定义 的 接口 标准 。 

precedence graph ( 优先 级 图 ) 一 种 表示 一 组 语句 顺序 约束 的 方法 。 优 先 级 图 中 的 节点 代表 语句 ， 如 
果 语 句 4 要 在 语句 B8 前 执行 ，4 到 8B 间 就 会 画 上 一 条 有 向 边 。 优 先 级 图 如 果 有 一 个 环 则 代表 其 中 有 
死 锁 ， 不 能 够 执行 。 

process ( 进程 ) 使 得 程序 指令 得 以 运行 的 资源 集合 。 这 些 资源 包括 虚拟 内 存 、I/O 描述 符 、 运 行 时 栈 、 
信号 处 理 程序 、 用 户 和 组 ID 以 及 访问 控制 令 牌 。 如 果 从 一 个 更 高 的 角度 看 进程 ， 进 程 就 是 一 个 有 自 
己 地 址 空间 的 “重量 级 ”UE。 参 考 unit of execution, thread, 

process migration ( 进程 迁移 ) 在 进程 执行 时 改变 运行 它 的 处 理 器 。 进 程 迁移 在 动态 负载 平衡 的 多 处 
理 融 系统 中 经 常 使 用 。 通 过 将 进程 从 失败 的 处 理 器 中 移 除 ， 进 程 迁移 也 用 来 支撑 容错 系统 。 

Processing Element, PE ( 处 理 单元 ) 用 于 形容 执行 一 条 指令 流 的 硬件 元 素 的 通用 术语 。 哪 个 硬件 单 
元 可 以 定义 为 PE 通常 由 上 下 文 指定 。 考 虑 一 个 集群 SMP 工作 站 ， 在 某 些 编程 环境 中 ， 认 为 每 个 工 
作 站 都 执行 了 一 个 指令 流 ， 这 种 情况 下 ，PE 就 是 工作 站 。 但 是 ， 当 不 同 的 编程 环境 运行 在 同一 个 硬 
件 上 时 ， 可 能 就 会 把 工作 站 的 每 个 处 理 器 作为 执行 指令 流 的 对 象 ， 在 这 种 情况 下 ，PE 就 是 指 的 是 处 
理 器 而 不 是 工作 站 。 
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programming environment ( 编程 环境 ) 提供 构建 程序 所 需要 的 基本 工具 和 API。 编 程 环境 瞳 指 一 个 称 
作 编 程 模型 的 计算 机 系统 的 特定 抽象 。 

programming model ( 编程 模型 ) 计算 机 系统 的 抽象 ， 比 如 ， 传 统 串 行 计算 机 所 使 用 的 冯 “' Wi RES 
型 。 对 于 并 行 计算 ， 有 很 多 反映 处 理 器 互 连 方式 的 不 同 编程 模型 。 最 常见 的 编程 模型 或 者 基于 共享 内 
存 ， 或 者 基于 分 布 式 内 存 〈 使 用 消息 传递 )， 或 者 基于 两 者 的 结合 。 

Pthread POSIX Thread 的 另 一 个 名 字 ， 也 就 是 ， 在 不 同 POSIX 标准 中 对 线程 的 定义 。 参 考 POSIX. 

Parallel Virtual Machine, PVM ( 并 行 虚拟 机 ) 一 个 用 于 并 行 计 算 的 消息 传递 库 。PVM 在 并 行 计 算 的 
历史 中 扮 沉 了 非常 重要 的 角色 ， 因 为 它 是 第 一 个 可 移植 的 消息 传递 环境 ， 并 在 并 行 计算 社区 中 得 到 了 
广泛 的 使 用 。 然 而 ， 现 在 它 已 经 几乎 被 MPI 所 取代 。 

race condition ( 竞 态 条 件 ) 这 是 并 行程 序 特有 的 一 种 错误 条 件 ， 程 序 会 随 着 UE 调度 的 变化 而 产生 不 
同 的 结果 。 

read/writer lock ( 3k / 写 锁 ) 类 似 于 互 斥 锁 的 一 对 锁 ， 多 个 UE 可 以 拥有 读 锁 ,但 是 写 锁 与 所 有 读 锁 和 
其 他 写 锁 互 斥 。 当 锁 保 护 的 资源 读 比 写 更 加 频繁 的 时 候 ， 读 / 写 锁 会 更 加 有 效率 。 

reduction ( 归 约 ) 一 种 操作 ， 获 取 对 象 (通常 从 每 一 个 UE 上 获取 一 个 对 象 ) 的 集合 ， 并 将 它们 组 合 为 
位 于 一 个 UE 上 的 对 象 ， 或 者 使 每 一 个 UE 都 拥有 组 合 对 象 的 一 个 副本 。 归 约 通常 使 用 一 种 符合 结合 律 
和 交换 律 的 运算 符 对 对 象 集合 进行 两 两 组 合 ， 例 如 ， 加 法 或 者 求 最 大 值 。 

refactoring ( 重 构 ) 一 项 软件 工程 技术 。 仔 细 重 建 程序 ， 达 到 改变 内 部 结构 但 不 改变 外 部 表现 的 目的 。 
重 构 通过 一 系列 小 的 改变 ( 称 为 重 构 ) 完成 ， 会 验证 每 个 小 的 改变 它 是 否 保留 原 有 行为 。 这 样 ， 每 次 
改变 完成 之 后 ， 整 个 系统 可 以 完整 工作 ， 极 大 减少 了 引入 严重 、 未 检测 bug 的 机 会 。 递 增 式 并 行 性 可 
以 看 做 并 行 编程 的 一 种 应 用 程序 重 构 方 式 。 人 参考 递 增 并 行 性 。 

Remote Procedure Call, RPC ( 远程 过 程 调用 ) 一 个 过 程 在 不 同 的 地 址 空间 中 被 调用 ， 经 常 发 生 在 不 
同 的 机 器 上 。 远 程 过 程 调用 是 进程 间 通 信和 在 分 布 式 CS 计算 环境 下 启动 远程 进程 的 一 种 非常 流行 的 
Fr. 

RPC 2% Remote Procedure Call. 

semaphore ( 信号 量 ) 一 种 用 于 实现 特定 同步 的 ADT。 一 个 信号 量 包括 一 个 非 负 整数 数值 和 两 个 原 
子 操作 。 它 可 以 进行 的 操作 是 V (有 时 称 作 up) 和 P( 有 时 称 作 down )。 一 个 Vv 操作 为 信号 量 加 1, 
一 个 P 操作 为 信号 量 减 一 ( 假设 这 个 操作 不 违反 信号 量 非 负 这 一 限制 )。 当 信号 量变 为 0 时 , 已 经 
启动 的 P 操作 会 被 挂 起 ， 当 信和 号 量变 为 正 数 时 ， 操 作 可 能 会 继续 进行 。 

serial fraction ( 串 行 比 ) 大 多 数 计算 是 由 可 并 行 部 分 和 一 定 要 串 行 执行 的 部 分 组 成 的 。 串 行 比 是 程序 
必须 串 行 执行 部 分 所 占用 的 时 间 与 整个 程序 运行 总 时 间 的 比值 。 比 如 ， 如 果 一 个 程序 可 分 解 为 setup, 
compute 和 finalization 三 部 分 ， 那 么 有 : 


Jouet = d 十 T. compute 十 T, finalization 


如 果 setup 和 finalization 阶段 必须 串 行 执行 ,那么 串 行 比 为 ; 
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shared address space ( 共享 地 址 空间 ) 被 很 多 UE 共享 的 可 编 址 内 存 块 。 

shared memory ( 共享 内 存 ) 由 硬件 和 软件 定义 的 可 被 多 个 系统 部 件 所 共享 的 内 存 区 域 。 对 于 编程 环 
境 而 言 ， 这 个 术语 表明 内 存 被 多 个 进程 或 者 线程 所 共享 。 对 于 硬件 来 说 ， 它 意味 着 将 处 理 器 连接 在 一 
起 的 架构 特性 是 共享 内 存 。 人 参考 shared address space. 

shared nothing ( 无 共享 ) 除 LAN 外 ， 节 点 间 没 有 任何 共享 的 分 布 式 内 存 MIMD 系统 。 

Simultaneous MultiThreading, SMT ( 同步 多 线程 ) 一 种 处 理 器 架构 特性 ， 人 允许 多 线程 在 每 个 周期 中 
发 出 指令 。 换 句 话 说 ，SMT 允许 组 成 处 理 器 的 功能 单元 可 同时 处 理 多 个 线程 。 比 如 ， 采 用 英特尔 公 
司 “HyperThreading” 技 术 的 微 处 理 器 就 是 SMT 的 典型 代表 。 
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Single Instruction, Multiple Data, SIMD ( 单 指 令 多 数据 ) 计算 机 体系 结构 Flynn 分 类 法 中 的 一 种 。 
在 SIMD 系统 中 ， 一 个 单独 的 指令 流 运 行 在 多 个 处 理 器 上 ， 每 个 处 理 器 都 有 其 自己 的 数据 流 。 

single-assignment variable ( 单 赋值 变量 ) 一 种 只 可 以 赋值 一 次 的 变量 。 变 量 一 开始 处 于 为 非 赋值 状 
态 ， 一 旦 赋值 后 ， 就 无 法 改变 它 。 这 些 变量 通常 用 于 那些 采用 数据 流 控制 策略 的 编程 环境 ， 只 有 所 有 
出 人 变量 都 被 赋值 后 ， 任 务 才 开始 执行 。 

SMP 参考 Symmetric multiprocessor, 

SMT 参考 simultaneous multithreading. 

speedup ( Wte ) 指 并 行程 序 性 能 比 其 串 行 版 本 高 多 少 倍 。 加 速 比 S 可 表示 为 : 

ste, T(n) 表示 程序 在 具有 nn 个 PE 的 系统 上 的 总 执行 时 间 。 当 并 行 计 算 中 加 速 比 和 PE 数量 相同 时 ， 
这 个 加 速 称 为 完美 线性 。 

Single Program, Multiple Data, SPMD ( 单程 序 多 数据 ) 最 常见 的 并 行程 序 组 织 方式 ， 特 别 是 在 
MIMD 计算 机 中 。 把 单个 程序 写 人 并 装载 进 并 行 计 算 机 的 不 同 节 点 上 独立 运行 (暂且 不 论 协同 事件 ), 
每 个 节点 上 的 指令 流 可 以 完全 不 同 。 代 码 中 不 同 路 径 的 选择 依赖 于 节点 ID. 

SPMD 参考 single program, multiple data. 

stride ( 内 存 跨度 ) 一 个 结构 在 内 存 中 遍历 时 的 增 量 。 内 存 跨 度 精确 的 含义 随 着 上 下 文 而 定 。 比 如 ,一 
个 M*N 的 数组 存储 在 一 个 以 列 为 主 序 的 连续 内 存 块 中 ， 当 按 列 遍历 时 ， 跨 度 为 一 ， 当 按 行 遍历 时 ， 
跨度 为 Mo 

Symmetric MultiProcessor, SMP ( 对 称 多 处 理 器 ) 一 种 共享 内 存 计算 机 ， 其 每 个 处 理 需 在 功能 上 是 
相同 的 ， 访 问 每 个 内 存 地 址 所 需要 的 时 间 也 是 相同 的 。 换 名 话说 ， 内 存 地 址 和 操作 系统 服务 对 每 个 处 
理 需 均 是 可 用 的 。 

synchronization ( 同步 ) 指 在 不 同 UE 上 发 生 事件 顺序 的 强制 限制 。 这 主要 用 于 确保 UE 集 访问 共享 资 
源 的 共享 方式 ， 这 种 方式 使 UE 无 论 如 何 调度 都 能 保证 程序 的 正确 性 。 

systolic array ( 脉动 阵列 ) 由 处 理 器 阵列 所 组 成 的 一 种 并 行 架 构 ， 其 中 每 个 处 理 堪 都 和 其 附近 的 少量 
邻居 相连 。 数 据 流 通过 整个 阵列 ， 当 数据 到 达 一 个 处 理 器 时 ， 该 处 理 器 执行 指定 的 操作 并 且 将 结果 传 
递 给 它 的 一 个 或 者 多 个 最 近邻 届 。 尽 管 脉动 阵列 中 的 每 个 处 理 吉 能够 执行 不 同 的 指令 流 ， 但 是 它们 以 
锁 步 〈1lock-step ) 的 方式 在 计算 和 通信 阶段 转换 。 因 此 脉动 阵列 和 SIMD 架构 非常 类 似 。 

systolic algorithm ( 脉动 算法 ) 一 种 并 行 算法 ， 使 用 规则 的 最 近邻 居 通 信 模 式 同 步 任 务 操作 。 许 多 计 
算 问 题 可 以 通过 重新 组 织 为 某 种 特定 类 型 的 递归 关系 而 转换 为 脉动 算法 。 

task 任务 ) 一 起 工作 的 指令 序列 ， 对 应 于 算法 或 者 程序 的 某 些 逻辑 部 分 。 

task queue ( 任务 队列 ) 一 个 包含 被 一 个 或 多 个 UE 所 执行 的 任务 的 队列 。 任 务 队列 一 般 在 使 用 任务 
并 行 模式 的 程序 中 用 来 实现 动态 调度 算法 ， 特 别 是 当 使 用 主 / 从 模式 的 时 候 。 

thread ( 线程 ) 线程 是 在 特定 计算 机 上 的 基本 执行 单位 。 在 UNIX 中 ， 线 程 与 进程 相关 联 并 共享 进程 
的 环境 。 这 使 得 线程 是 轻 量 级 的 (也 就 是 说 ， 线 程 的 调度 代价 很 小 )。 从 更 高 视角 来 说 ， 线 程 是 与 其 
他 线程 共享 地 址 空间 的 轻 量 级 执行 单元 。 参 考 unit of execution, process. 

transputer ( 晶片 机 ) 由 Inmos 公司 开发 的 并 且 集 成 了 支持 并 行 处 理 芯 片 的 微 处 理 器 。 每 个 处 理 器 有 4 
个 高 速 通信 链 路 ， 这 使 得 它们 非常 容易 和 其 他 晶片 机 连接 ， 同 时 它 也 有 非常 高 效 的 内 置 调度 器 。 

tuple space (元 组 空间 ) 一 个 共享 内 存 系统 ， 其 中 内 存 中 的 元 素 被 组 织 成 称 为 元 组 的 复合 对 象 。 一 个 
元 素 是 一 小 组 字段 ， 可 以 保存 值 或 变量 ， 如 下 所 示 : 

(3,"the larch", 4) 
(X, 47, [2,4,89,3]) 


("done") 
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就 像 我 们 在 示例 中 看 到 的 ， 组 成 元 组 的 字段 可 以 保存 整数 、 字 符 串 、 变 量 、 数 组 或 者 其 他 一 些 在 基 
本 编程 语言 中 定义 的 值 。 传 统 的 内 存 系 统 通过 地 址 访问 对 象 ， 元 组 则 通过 相关 性 。 操 作 元 组 的 程序 
员 定 义 一 个 模板 ， 并 且 要 求 系统 传递 匹配 模板 的 元 素 。 元 组 空间 作为 Linda 协调 语言 的 一 部 分 创建 
[CG91]。Linda 语言 很 小 ， 只 有 少量 原 语 ， 用 来 插入 元 组 、 移 除 元 组 和 提取 一 个 元 组 的 副本 。Lina 与 
基本 编程 语言 (如 C/C++ 或 Fortran) 结合 ,创造 了 一 个 混合 并 行 编程 语言 。 除 了 在 共享 内 存 机 器 上 的 
原始 实现 外 ，Linda 在 虚拟 共享 内 存 的 机 器 上 也 有 实现 ， 并 用 来 实现 运行 在 分 布 式 内 存 计算 机 不 同 节点 
上 的 UE 间 的 通信 。 这 种 由 Linda 局 发 的 虚拟 共享 内 存 思想 已 经 被 纳 人 到 了 JavaSpace[FHA99] 中 。 

UE 参考 unit of execution, 

Unit of Execution, UE ( 执行 单元 ) 用 来 表示 并 发 执行 的 实体 集合 中 的 一 个 元 素 的 通用 术语 ， 通 常用 
来 表示 进程 或 者 线程 。 参 考 process、thread。 

vector supercomputer ( 向 量 超级 计算 机 ) 将 向 量 硬件 单元 集成 到 中 央 处 理 单元 极 上 的 超级 计算 机 。 向 
量 硬 件 用 流水 线 方式 处 理 数 组 。 

virtual shared memory ( 虚拟 共享 内 存 ) 提供 共享 内 存 抽 象 的 系统 ， 即 便 底层 硬件 是 基于 分 布 式 内 存 
架构 的 ， 也 允许 程序 员 编 写 共享 内 存 程序 。 虚 拟 共享 内 存 系统 可 以 在 操作 系统 实现 ， 也 可 以 作为 编程 
环境 中 的 一 部 分 。 

workstation farm ( 工作 站 农场 ) 一 个 由 通常 运行 UNIX 操作 系统 的 工作 站 组 成 的 集群 。 在 有 些 情况 下 ， 
“农场 ” 暗 指 整 个 系统 用 来 运行 大 量 独立 的 串 行 作业 而 不 是 并 行 计算 。 
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discretization ( 离散 )，80 
Distance Geometry Program ( 距离 几何 程序 ， 
DGEOM )，73 
distributed Array pattern ( 分 布 式 数组 模式 )，122- 
123 
computation alignment ( 计算 对 齐 )，207 
distribution selection ( 分 布 选择 )，205 
index ( 索引 ), mapping ( 映射 )，205-206 
Distributed Array pattern ( 分 布 式 数组 模式 )， 
122-123，198-211 
context (HE), 198-199 
example ( 示例 ), 207-211 
force (面临 的 问题 )，199-200 
in other pattern ( 其 他 模型 中 )，36，38，85， 
97, 128, 142-143, 182, 251 
problem ( 问题 ), 198 
related pattern ( 相关 模式 )，211 
solution ( 解决 方案 )，200-207 
distributed computing ( 分 布 式 计算 ), definition ( 定 
X. ); "310 j 
distributed-memory computer ( 分 布 式 内 存 计算 
BL), 11-12, 51 
architecture ( 架构 ), 11, 51 
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environment ( 环境 )，51 
MIMD (多 指令 多 数据 ) 
architecture ( 架构 ), 317 
computer ( 计算 机 )，129，211 
model ( AI ), 15 
system ( R ), 11, 47, 74, 237 
distributed queue (分布 式 队列 ), 144 
distributed shared memory ( DSM )， 参 见 virtual 
distributed shared memory systems 
definition ( 定义 ), 310-311 
device-and-conquer algorithm, 74, £I, sequential 
devide-and-conquer algorithm 
divide-and-conquer matrix multiplication ( 4) 18 XE 
Me Fe 1X), B UL parallel divide-conquer matrix 
multiplication 
context ( 背景 ), 73 
data decomposition ( 数据 分 解 ), 82-83 
force ( 影响 因素 ), 74 
in other pattern ( 其 他 模式 中 ), 97, 125, 126, 
127, 146, 167, 168, 173 
problem ( 问题 )，73 
related pattern ( 相关 模式 ), 78-79 
solution ( 解决 方案 ), 75-77 
divide-and-conquer strategy ( 分 治 策略 )， 参 见 
divide-and-conquer algorithm 
DNA sequencing ( DNA 测序 )，1-2 
domain decomposition ( 域 分 解 )，79 
double-ended task queue (双向 任务 队列 ), 146 
DPAT simulation ( DPAT 仿真 )，119 
DSM, ÆJ distributed share memory 
dual-processor computer ( 双 处 理 器 计算 机 ), 1 
dynamic schedule ( 动态 调度 )，69，271 
dynamic load balancing ( 动态 负载 平衡 )，161 
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eager evaluation ( eager 计算 ), definition ( 定义 ), 
311 
ear decomposition ( ear 分解 ), 102 
Earth Simulator Center ( 地 球 仿真 中 心 )，127 
efficiency ( 效率 ) 
definition (72%), 124, 311 
portability ( 可 移植 性 )，conflict ( 冲突 ), 58 
eigenvalue/eigenvector ( 特征 值 / 特征 向 量 ), 78 
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Einstein, Albert ( 阿尔 伯 特 * 爱 因 斯 坦 )，54 
embarrassingly parallel ( 易 并 行 )，60 
definition ( x€ X. ), 311 
problem ( 问题 ), 70 
Ensemble system for discrete-event simulation ( 离 
散 事件 仿真 全 系统 )，118 
environment affinity ( 环境 适应 性 )，125 
equal-time memory access ( 等 时 内 存 访 问 ), 
318-319 
error condition handling ( 错误 条 件 处 理 )，108 
Ethernet LAN cluster ( 以 太 网 LAN 集群 )，134 
Ethernet network ( 以 太 网 ), 11 
Euler tour ( 欧 拉 环 游 ), 102 
European Workshop on OpenMP ( EWOMP, 
OpenMP 欧洲 研讨 会 )，166 - 
EuroPLoP ( EuroPLoP 大 会 )，5 
Event-Based Coordination pattern ( 基于 事件 的 协 
调 模式 )，58，61-62，114-120 
context ( 背景 )，115-116 
example ( 示例 )，119 
force (面临 的 问题 )，116 
in other pattern ( 其 他 模式 中 )，114 
problem ( 问题 ), 114-115 
related pattern ( 相关 模式 ), 120 
scheduling ( 调度 )，119 
solution ( 解决 方案 )，116-119 
tasks (任务 )，defining (定义 )，116 
event (事件 ) 
communication ( 通信 ), efficiency (24%), 119 
flow ( 流 ), representation ( 表示 ), 117 
ordering ( F/R), 117-118 
EWOMP, ÆJ European Workgroup on OpenMP 
Example (示例 ) 
computing Fibonacci numbers ( 3E 7€ Af S2 Hit 
算 ), 194-196 
Fourier transform computation ( 傅 里 时 变换 计 
算 )，109-110 
genetic algorithm ( 遗传 算法 )，179-181 
heat diffusion ( 热 扩散 )， 参见 mesh computation 
image construction ( 图 形 构建 )，70-71 
linear algebra ( 线性 代数 )，27，34，207 
loop-based program in Java ( 基于 循环 的 Java 
程序 )，308-309 
Mandelbrot set generation ( Mandelbrot 集 合 生 


成 )， 参 见 MandelBrot set 
matrix diagonalization ( 和 矩阵 对 角 化 ), 78 
matrix transpose(〈 和 矩阵 转 置 )，207-210 
medical imaging ( 医学 成 像 )，26，31，36，62-63 
mesh computation ( 网 格 运算 ), 80, 83, 85-92, 
164-166 
example ( 示例 ) 
NUMA computer (NUMA 计算 机 )，164 
OpenMP, 164 
molecular dynamics ( 分 子 动力 学 )，27-29，32- 
34, 38-39, 41-42, 44, 47-49, 63-64, 71- 
72, 133-140, 160-161 
numerical integration ( 数值 积分 )，129-133 
MPI, 130 
OpenMP, 160 
partial sums of linked lists ( 链表 部 分 和 ), 101 
pipeline framework ( 流水 线 框架 ), 110 
sorting pipeline (流水线 排序 )，113 
timing a function using a barrier ( 使 用 栅栏 计时 
PRÉC), 227-230 
exchange (交换 ), data (数据 ), 84 
explicitly parallel language definition ( 显 式 并 行 语 
言 定 义 )，311 
exploitable concurrency ( 可 挖掘 的 并 发 性 )，24 
exposing concurrency ( 发 现 并 发 性 )，24 
extraterrestrial intelligence, search for ( 搜寻 地 外 智 
2$), &W Search for Extraterrestrial Intelligence 
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Facade pattern ( 正面 模式 )，116 

Factory pattern ( 工厂 模式 ) 
definition ( 定义 )，311 
interaction (424), 295 

false sharing ( H4 ), definition ( x€ X. ), 311 

Fast Fourier Transform (FFT， 快 速 傅 里 叶 变换 )， 
参见 Fourier transform 

fault-tolerant computing ( 容错 计算 ), 147 

fenc ( 围栏 )， 参 见 Java; MPI; OpenMP 

FFT， 参 见 Fast Fourier Transform 

Fibonacci number computation ( 斐 波 那 契 数 计算 ), 
Shared Queue pattern example ( 共享 队列 模式 
HPF), 194-196 

file system ( 文件 系统 )，parallel (3-47 ), 108 
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Finding Concurrency design space ( 寻找 并 发 设计 
空间 ), 5-6, 24 
fine-grained concurrency ( 细 粒 度 并 发 性 )，51 
fine-grained data sharing ( 细 粒 度数 据 共享 )，51 
fine-grained parallelism ( 细 粒 度 并 行 )， 人 参见 fine- 
grained data parallel 
finite element method (有 限 元 方法 )，141 
finite differencing scheme《〈 有 限 差 分 方案 )，97 
first-order predicate calculus (一 阶 谓词 演算 ), 214 
firstprivate clause, in OpenMP ( OpenMP 中 
的 firstprivate 子 句 ), 164 
first touch page placement first touch 页 面 布 局 算法 ), 
164 
fixed-form Fortran statement, in OpenMP ( OpenMP 
中 国定 格式 的 Fortran 语句 ), 258 
fixed-time speedup ( 固定 时 间 加 速 比 ), 21 
FJTask 
framework ( #E32), 69, 77, 171 
object (X428 ), 171 
package (£2), 169, 171, 190 
subclass ( 25 ), 171 
FLAME project (FLAME Ji ), 78 
floating-point arithmetic ( 浮 点 运算 )，3，32 
associativity ( 可 结合 性 )，248 
operation ( 操作 )，38 
flush construct, in OpenMP ( OpenMP 中 的 flush 
结构 )，233 
Flynn’s taxonomy ( Flynn 分 类 ) 
MIMD ( 多 指令 多 数据 )，9 
MISD ( 多 指令 单数 据 )，9 
SIMD ( 单 指令 多 数据 )，8 
SISD ( 单 指令 单数 据 )，8 
for construct，in OpenMP ( OpenMP 中 的 for 结 
构 )，76 
fork-join programming model,in OpenMP( OpenMP 
中 的 派生 /合并 编程 模型 )，172 
fork-join ( 派生 /合并 ) 
approach (方法 )，76 
definition (定义 )，167-173，311 
program ( 程序 )，77 
Fork/Join pattern ( 派生 /聚合 模式 )，122-123， 
125-126, 167-173 
context ( 背景 ), 167-168 
example ( 示例 ), 169-173 
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force ( 面临 的 问题 )，168 
in other pattern ( 其 他 模式 中 )，76，78，143， 
147, 152, 197 
problem ( 问题 )，167 
related pattern ( 相关 模式 ), 173 
solution ( 解决 方案 )，168-169 
thread-pool-based implementation ( 基于 线程 池 
的 实现 )，197 
Fortran, ÆJ High Performance Fortran 
usage with MPI ( MPI 的 使 用 )，288-289 
usage with OpenMP ( OpenMP 的 使 用 )，253-271 
Fourier transform ( 傅 里 时 变换 ), 66, 75, 78, 97 
Pipeline pattern example ( 流水 线 模式 示例 +), 
109-110 
framework (框架 ), definition ( 定义)，311 
function decomposition ( 功能 分 解 )，311 
function programming language ( 函数 式 编 程 语 
言 )，215 
future variable ( future 变量 )，definition ( 定义 ), 312 
Fx (language) (Fx 语言 )，14，111 
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GAFORT program ( GAFORT 程序 )，179 
GAMESS, 73 
Gamma, Erich, ÆJ Gang of Four 
Gang of Four ( 四 人 组 ，GoF ), 4 
GA, ÆJ Global Arrays 
Gaussian Quadrature ( 高 斯 积分 法 )， 参 见 recursive 
Gaussian Quadrature 
generic type ( 泛 型 类 型 ) 
generic ( 泛 型 )，definition ( 定义 ) 
genetic algorithm ( 基因 算法 )， 参 见 nonlinear 
optimization 
Geometric Decomposition pattern( 几何 分 解 模式 ), 
61, 79-97 
context ( #7), 79-81 
examples ( 示例 ), 85-97 
force (面临 的 问题 )，81 
in other pattern ( 其 他 模式 中 ), 38, 64, 102, 
111, 125-127, 142, 153, 164-165, 167, 
173, 1991. 211, 215 
problem ( 问题 ), 79 
related pattern ( 相关 模式 ), 97 


250 


solution (解决 方案 )，82-85 
Georgia Tech Time Warp (GTW, GIT 时 间 扭 曲 ), 
119 
ghost cell ( 影子 单元 )，88 
Global Array ( GA， 全 局 数组 )，15，252 
global communication ( 全 局 通信 )，144 
global data array ( 全 局 数据 数组 )，88 
global index ( 全 局 索引 )，205 
mapping ( 映射 )，201 
global optimization ( 全 局 优化 )，199 
GoF, ÆW Gang of Four 
granularity ( 粒度 )，36，82 
granularity knob ( 粒度 块 )，36 
Graphical User Interface ( 图 形 用 户 界面 ，GUTI ), 
8, 291 
graphics ( 图 形 ), 103-104 
grid ( 网 格 ) 
computation ( 参见 SETI(ghome ) 
definition ( 定义 ), 312 
technology ( 技术 ), 214 
Gróbner basis program ( Gróbner 基本 程序 )，181 
Group Tasks pattern ( 分 组 任务 模式 ), 25, 39-42 
context ( 背景 )，39-40 
example ( 示例 )，41-42 
in other pattern ( 其 他 模式 中 ), 32, 42, 44, 
45, 47, 59, 55 
problem ( 问题 )，39 
solution (解决 方案 )，40-41 
GTW, ÆJ Georgia Tech Time Warp 
GUI, £&lil, graphical user interface 
Guided schedule, in OpenMP ( OpenMP 中 的 指导 
调度 )，271 
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Haskell ( Haskell 函数 式 编程 语言 )，215 

heat diffusion ( 热 扩 散 )， 参 见 mesh computation 

heavyweight object ( 重量 级 对 象 )，217 

Helm. Richard ， 参 见 Gang of Four 

heterogeneous system ( #44 AE), definition ( E 
X ), '312 

hierarchical task group (分 层 任 务 组 )，55 

High Performance Fortran ( HPC， 高 性 能 Fortran ), 
100-101，122 


language (语言 )，211 
usage ( 用 法 ), 111-112 
high-level synchronization construct ( 高 级 同步 构 
i ), 223 
high-level programming language( 高 级 编程 语言 )， 
216 
High Performance Computing ( 高 性 能 计算 ，HPC ), 
15, 16 
Hillis, Daniel ( 希 利 斯 * 丹尼尔 ), 101, 102 
Hillside Group ( 山坡 联盟 )，4-5 
Hoare, C.A.R. ( &/f * C.A.R. ), 314 
homogeneous system ( [Alf ABE), 68 
Hood, 69 
HPF, ÆJ High Performance Fortran 
HTTP request ( HTTP 请 求 ) 
filtering〈 过 滤 ), 113 
handling (处理 ), 114 
Hubble Space Telescope ( 哈 勃 太空 望远镜 )，110-111 
hybrid computer architecture ( 混合 计算 机 体系 结 
构 )，13 
hybrid MIMD machine ( 混合 多 指令 多 数据 设备 )，12 
hypercube ( #83777 ), definition ( 定义 )，312 
Hyper Threading ( 超 线程 )，318 


image processing application( 图 像 处 理应 用 程序 ), 
65 

immediate communication mode, in MPI ( MPI 中 
的 即时 通信 模式 )，91 

Implementation Mechanisms design space ( 实现 机 
制 设 计 空 间 )，154 

implicit barrier, in OpenMP ( OpenMP 中 的 隐 式 
WM), 229, 262 

implicitly parallel language ( 隐 式 并 行 语 言 )， 
definition (定义 )，312 

incremental parallelism (refactoring ) ( 增 量 并 行 
性 ( 重 构 ))，153，253，-254 
definition ( 定义 ), 312 

independent task ( 独立 的 任务 )，29 

indice, mapping, ÆJ Distributed Array pattern 

indirect task/UE mapping ( 间接 任务 /UE 映射 )， 
169 

Inmos Ltd. ( Inmos 公司 ), 319 
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Input/output (IO， 输 入 /输出 )， 参 见 parallel 
I/O; nonblocking I/O 
delay (延迟 )，8 
facility ( 设备 )，244 
library ( JẸ ), 164 
operation ( 操作 ), 43 
thread-safe ( 线程 安全 ), 255, 266 
instruction pipeline ( 指令 流水 线 ), 103 
Intel Corporation ( 英特尔 公司 )，18 
invalidate-and-movement operation ( 无 效 移动 操 
作 )， 参 见 cache line 
inverse DFT (ji DFT )，109， 参 见 Fourier transform 
I/O, ÆJ input/output 
irregular interaction ( 不 规则 的 交互 ), 50, 55, 
61-62, 114-115 
iteration ( 迭代 ), ÆW loop iteration 
iterative construct (迭代 结构 ), 152 
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J2EE， 参 见 Java 2 Enterprise Edition; 214 
JáJá, Joseph ( 9191 - AGH), 102 
Jacobi iteration ( 雅克 比 迭 代 ), 171 
Java 
anonymous inner classes ( 匿名 内 部 类 ), 294 
atomic array ( 原子 数组 )，225 
autoboxing ( 目 动 装 箱 ), 292, 308 
barrier ( 栅栏 )，229 
blocking I/O ( 阻塞 I/O ), 244 
buffer (缓冲 区 ), 244 
bytecode (4574), 312 
channel ( 通道 )，244 
class (4), ÆJ Java class 
comparison with OpenMP( 与 OpenMP 作对 比 ), 
303 
concurrent programming ( 并 发 编程 )，292 
usage (用 法 ), 193, 308, 315 
daemon thread ( 守护 线程 )，293 
factory (TJ ), 294 
fence ( EIH ), 225-226 
final variable ( final 变量 )，293 
floating-point arithmetic mode ( 浮 点 运算 模型 )， 
3, 16 
generic type ( 22782578 ), 292 
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interface (#0 ), il, Java interface 

interrupt (bi), 304 

language definition ( 语言 定义 )，241 

memory synchronization ( 内 存 同步 )，178 

message passing ( 消息 传递 )，241-246 

MPI-like binding ( 类 似 于 MPI 的 绑 定 )，244 

mutual exclusion ( 4. FR ), 233-236 

performance ( 性 能 ), 241-246 

pipeline framework ( 流水 线 架 构 )，Pipeline pattern 
example 流水 线 模式 示例 )，110 

portability ( 可 移植 性 )，58 

process creation/destruction ( 进程 创建 /销毁 ), 
220-221 

run method (run 方法 )，148 

scope rule ( 作用 域 规则 ), 148 

snychronized block ( 同步 块 )，297-298 

TCP/IP support ( TCP/IP 支持 )，244 

thread creation/destruction ( 线程 创建 /销毁 ), 
218 

visibility ( 可 见 性 ), 225 

volatile (volatile 修饰 符 )，178 

wait and notify ( 等 待 和 通知 )，185 

wait set ( 等 待 集 )，299 

with distributed-memory system ( 具有 分 布 式 内 
存 系统 )，15，21 


Java class ( Java 类 ) 


AtomicLong, 297 

Buffer, 244 
ConcurrentHashMap, 304 
CopyOnWriteArrayList, 304 
CopyOnWriteArraySet, 304 
CountDownLatch, 110 
CyclicBarrier, 229 
Exchanger, 303 
Executors, 148 

Future, 295, 312 
java.lang.Process, 221 
Java.lang.Runtime, 221 
LinkedBlockingQueue, 110 
Object, 298 
ReentrantLock, 301 
Thread, 319 
ThreadPoolExecutor, 148 


Java interface ( Java 接口 ) 
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BlockingQueue, 110 
Callable, 295 
Collection, 304 
Condition, 303 
Executor, 148, 294-296 
ExecutorServices, 294 
Runnable, 148-149, 293-296 
Java Native Interface ( Java 本 地 接口 ，JNI )，244 
Java Virtual Machine ( Java 虚拟 机 ，JVM ), 244 
definition (定义 ), 312 
implementation ( 实现 )，221 
specification ( 规范 ), 297 
java.io (f£), 242 
java.lang (€); 292 
JavaMPI 
java.net (@), 243 
java.nio (f£), 244 
java.rmi (® ), 242 
JavaSpace, 117, 252, 320 
java.util (f£), 292 
java.util.concurrent (fu), 148, 176, 183- 
185, 219, 229, 292, 294, 303 
usage ( 使 用 ) 
java.util.concurrent.atomic (f), 297 
java.util.concurrent.lock (fu), 233, 293 
Java 2 Enterprise Edition ( Java 2 企业 版 )，113 
JNI， 参 见 Java Native Interface 
Johnson, Ralph, ÆJ, Gang of Four 
join (RA), BL fork/join 
JVM, ÆJ Java Virtual Machine 


K 
KoalaPLoP ( KoalaPLoP 会 议 )，4 
L 


LAM/MPI, 213, 273 

LAPACK, 172 

large-grained task ( 大 粒度 任务 )，42 

Last in First Out( LIFO ) buffer( 后 进 先 出 缓冲 区 ), 
190 

lastprivate clause, in OpenMP ( OpenMP 中 
的 lastprivate ^H] ), 264 

latency ( HEIR ), 21, 109 


cost (开销 ), 53 
definition (定义 ), 313 
hiding ( 隐藏 )，22 
latency-bound algorithm ( 延迟 敏感 算法 ), 313 
lazy evaluation ( 懒惰 求 值 )，definition ( xE Y. ), 313 
LIFO， 参 见 Last in first out 
lightweight UE ( £$582X UE), 16, 218 
Linda ( 并行 语 言及 环境 ) 
definition (定义 )，313 
language (i ), 72, 117, 252 
tuple space ( 元 组 空间 ), 151 
linear algebra ( 线性 代数 )，27 
computation ( 计算 ), 206 
problem ( 问题 ), 55 
linear speedup ( 线性 加 速 )，19 
linked lists ( 链表 ), Recursive Data pattern example 
(递归 数据 模式 示例 )，102 
Linux operating system ( Linux 操作 系统 )，11 
LISP, 215 
List-ranking ( 列表 排序 )，Recursive Data pattern 
example ( 递归 数据 模式 示例 )，102 
load balance ( 负载 均衡 方法 )，17，50，199 
definition ( x€ X. ), 313 
improvement ( 改进 ), 85 
support ( Xx $$), 145 
load balancing ( 负载 均衡 )，17，119 
definition (定义 ), 313 
difficulty (困难 ), 143 
facilitation ( 简易 化 ), 82 
problem ( 问题 ), 30 
statistical ( 统计 )，71 
local data ( 局 部 数据 ), 45, 25 task-local data 
identification, 49 
local indices ( 局 部 索引 ), mapping ( 映射 )，202- 
205 
local variable ( 局 部 变量 )，263 
locality ( 局 部 性 ), definition (定义 ), 313 
lock( 锁 )，47，301-303 
acquisition ( 获取 ), 181 
function ( PIAL), 266 
logic programming ( 逻辑 编程 )，214-215 
logic programming language ( 逻辑 编程 语言 )， 
214-215 
loop iteration ( 循环 迭代 ), 128, 138, 259 
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cyclic distribution ( 循环 分 布 )，133 
dependency ( 依赖 性 )，67 
independency ( 独立 性 )，259-260 
interaction ( 交互 ), 163 
splitting ( 4H] ), BI loop 
Loop Parallelism pattern ( 循环 并 行 模型 )，122- 
123, 125-126, 152-167 © 
context ( 背景 )，152 
example (示例 ), 159-167 
forces ( 面临 的 问题 )，153 
in other patterns ( 其 他 模式 中 ), 69, 71, 72, 
85, 87, 142, 143, 146, 149, 151, 167, 
169, 172, 173, 180, 259, 263 
performance consideration ( 性 能 影响 因素 ), 
157-158 
problem ( 问题 ), 152 
related pattern ( 相关 模式 )，167 
solution ( 解决 方案 )，153-158 
loop-based parallelism ( 基于 循环 的 并 行 )，125 
algorithm ( 算法 ), 157 
performance ( 性 能 ), 157 
loop-carried dependency ( 循环 依赖 性 )，66，152 
removal ( 消除 )，152 
loop-driven problem ( 循环 驱动 问题 )，153 
loop-level pipelining ( 循环 级 流水 线 )，103 
loop-level worksharing construct in OpenMP 
(OpenMP 中 的 循环 级 工作 共享 结构 )，123 
loop， 参 见 parallelized loop; time-critical loops 
coalescing (合并 )， 参 见 nested loop 
merging ( 合并 )，155 
parallel logic (并行 逻辑 )，167 
parallelism (并行 性 )，122，154 
parallelization ( 并 行 化 ), prevention ( 预防 ), 
67 
range ( 范围 )，130 
schedule ( 调度 ), optimization ( 优化 ), 154 
sequence (序列 ), 154 
splitting ( 4%] ), 129, 159 
strategy ( 策略 )，131 
structure ( 结构 ), 94 
loop-splitting algorithm ( 循环 分 割 算 法 ), 31 
Los Alamos National Lab ( 洛斯 阿拉 莫 国 家 实验 
=), 127 
low-latency networks ( 低 延 迟 网 络 ), 66 
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low-level synchronization protocols ( 低层 次 的 同 
步 协议 )，267 
LU matrix decomposition ( LU 和 矩阵 分 解 )，172 


M 


maintainability ( 可 维护 性 )，124 
Mandelbrot set ( Mandelbrot 集合 )， 人 参见 parallel 
Mandelbrot set generation 
generation (EA), 147 
Loop Parallelism pattern example ( 循环 并 行 模 
式 示例 )，159-167 
Master/Worker pattern example ( 主 / 从 模式 示 
例 )，147-151 
SPMD Pattern Example( SPMD 模式 示例 ), 
129-142 
mapping data to UE ( 将 数据 映射 到 UE), 200 
mapping tasks to UE (将 任务 映射 到 UE), 76-77 
MasPar ( MasPar 计算 机 硬件 公司 )，8 
Massively Parallel Processor ( MPP ) computer ( 大 
规模 并 行 处 理 器 计算 机 )，8，11 
definition (定义 )，313-314 
vendor ( 供应 商 ), 314 
master thread in OpenMP ( OpenMP 中 的 主线 程 )， 
168 
master/worker algorithm ( 主 / 从 算法 )，144 
master/worker pattern ( 主 / 从 模式 ), 122-123, 
125-126, 143-152 
completion detection ( 完成 检测 ), 145-146 
context (#73), 143 
example (示例 ), 147-151 
forces ( 面临 的 问题 )，144 
in other patterns ( 其 他 模式 中 )，70，71，72， 
76, 167, 173, 183, 188, 219, 319 
problem ( 问题 ), 143 
related pattern ( 相关 模式 ), 151-152 
solution ( 解决 方案 ), 144-147 
variation ( 变化 )，146 
matrix (矩阵 ) 
block (J), 81 
index ( 索引 ), 95 
order (顺序 ), 201 
matrix diagonalization ( 矩阵 对 角 化 )，78 
Divide and Conquer pattern example ( 分 治 模 式 
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示例 )，78-79 
matrix transposition ( 矩阵 转 置 ) 
Distributed Array pattern example ( 分 布 数 组 模 
式 示例 )，207-211 
matrix multiplication ( 矩阵 乘法 )， 参 见 parallel 
divide-and-conquer matrix multiplication ; 
parallel matrix multiplication 
algorithm ( 算法 ), Æ WW block-based matrix 
multiplication algorithm 
complexity ( 复杂 性 )，27 
Data Decomposition pattern example ( 数据 分 解 
模式 示例 )，36-37 
Geometric Decomposition pattern example ( JL 
何 分 解 模式 示例 )，85-97 
Group Tasks pattern example ( 分 组 任务 模式 示 
例 )，41-42 
problem ( 问题 ), 39 
Task Decomposition pattern example ( 任务 分 解 
模式 示例 )，31-34 
medical imaging ( 医学 成 像 )，26-27 
Algorithm Structure design space example ( 算法 
结构 设计 空间 示例 )，62-64 
Finding Concurrency design space example ( 寻找 
并 发 设计 空间 示例 )，36-37 
Task Decomposition pattern example ( 任务 分 解 
模式 示例 )，31-34 
memory ( Aff ) 
allocation ( 分 配 ), 282 
bandwidth ( 带宽 ), 10 
bottleneck (瓶颈 )，10 
buses ( 总 线 )，speed ( 速度 )，199 
fence ( Hilti} )，222 
hierarchy ( 层次 性 )，239 
usage ( 用 法 )，198 
management ( 管理 ), 200 
model ( 模型 ), description ( 描述 ), 293 
subsystem ( 2&5), 51 
synchronization (同步 ), 178, 297 
fence ( EIH} ), interaction ( 2$ 8. ), 221-226 
guarantee ( 保证 ), 233 
utilization ( 使 用 ), 153 
mergesort ( 归并 ) 
Divide and Conquer pattern example ( 分 治 模式 
示例 )，78 
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Fork/Join pattern example ( 派生 /聚合 模式 示 
例 ), 76-78, 169-172 
mesh computation ( 网 格 运算 ) 
ghost boundary ( 影子 边界 )，83 
Loop parallelism pattern example ( 循环 并 行 模 
SCAR Bi), 164-166 
Geometric Decomposition pattern example ( 集合 
分 解 模 式 示 例 )，80，85-92 
in OpenMP (在 OpenMP 中 )，87-88 
in MPI (在 MPI 中 )，88-92 
NUMA computer (NUMA i141), 35, 164, 273 
message buffer, in MPI (MPI 中 的 消息 缓冲 区 )， 
117 
message passing ( 消息 传递 )， 6, 238-245, BU 
asynchronous message passing ; Java ; MPI ; 
Message Passing Interface ; OpenMP ; point-to- 
point message passing 
design (设计 ), 52 
environment ( 环境 )，$1，107，117，175，249 
function ( Kix ), 275 
Java, 288 
OpenMP, 240-241 
usage (FAYE), 86 
Message Passing Interface ( 消息 传递 接口 ，MPI ), 
13, 84 | 
API (应 用 程序 编程 接口 )，220 
barrier ( 栅栏 )，226-229 
collective operation ( 集合 操作 )，279-284 
concept ( 概念 ), 273-275 
definition ( € X. ), 314 
fences ( 围 栅 ), memory ( AFF), 226 
Fortran language binding ( Fortran 语言 绑 定 ), 
288-289 
Forum, 2 i, Message Passing Interface Forum 
implementation ( 实现 ), 213 
LAM/MPI, 213 
MPICH (MPI 标 准 的 一 种 实现 )，213 
initialization〈 初 始 化 )，275-177 
introduction ( 5| A ), 273 
Java binding ( Java $#$ ), 273 
message passing ( 消息 传递 )，238-241 
mutual exclusion ( &.J& ), 236-237 
nonblocking communication ( 非 阻 塞 通信 ), 84, 
90, 284, 286 
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persistent communication ( 持续 通信 ), 286 
process creation/destruction ( 进程 创建 /销毁 ), 
220-221 
thread creation/destruction ( 线程 创建 /销毁 ), 
218-220 
timing function ( 计时 因数 )，281 
Version 2.0 ( 2.0 版 本 )，15 
Message Passing Interface ( MPI ) Forum ( 消息 传 
递 接口 论坛 )，15 | 
Middleware ( 中 间 件 ), 12, 214 
MIMD, lil, Multiple Instruction Multiple Data 
MISD, Æ, Multiple Instruction Single Data 
Molecular dynamics ( 分 子 动力 学 )，27-29 
Algorithm Structure example ( 算法 结构 示例 ), 
62-63 
Data Decomposition pattern example ( 数据 分 解 
模式 示例 ), 36-39 
Data Sharing pattern example ( 数据 共享 模式 示 
例 ), 47-49 
Group Tasks pattern example ( 分 组 任务 模式 示 
例 ), 41-42 
Loop Parallelism pattern example ( 循环 并 行 模 
式 示例 ), 159-167 
Order Tasks pattern example ( 排序 任务 模式 示 
例 ), 44 
SPMD pattern example ( SPMD 模式 示例 ), 
129-141 
Task Decomposition pattern example ( 任务 分 解 
- 模式 示例 )，31-34 
Task Parallelism pattern example ( 任务 并 行 模 
式 示 例 )，70-73 
WESDYN，34 
monitor ( 显示 器 ), definition ( 定义 )，314 
monotonic counter ( HIIT RAE ), 144 
monotonic index (单调 索引 ), 152 
Monsters, Inc. (2001 ) ( Monsters 公司 (2001)), 1 
Monte Carlo ( RIF FE ) 
model ( 模型 )，27 
simulation ( fj & ), 50 
MPI， 参 见 Meaage Passing Interface 
MPI Allreduce, 246 
MPI ANY TAG, 236 
MPI Barrier, 279 
MPI Bcast, 280 


255 


MPI Bsend, #Jil, buffered communication mode 

MPICH, 213, 273 

MPI COMM, 226 

MPI Comm rank, 276, 290 

MPI Comm size, 276, 290 

MPI COMM WORLD 

MPI Init, 275 

MPI Irecv, 91 

MPI Isend, 91 

MPI Java, 244 

MPI MAX, usage in reduction ( 在 归 约 中 使 用 的 
MPI MAX )，246，284 

MPI MIN, usage in reduction (在 归 约 中 使 用 的 
MPI MIN )，246 

MPI Recv, 290 

MPI Recv init, 286 

MPI Reduce, 245, 246 

MPI Rsend, 287 

MPI Send, 286 

MPI Send Init, 286 

MPI Start, 286 

MPI Status, 278 

MPI SUM, usage in reduction ( 在 归 约 中 的 使 用 
的 MPI SUM ), 246 

MPI TEST, 284 

MPI WAIT, 286 

MPI Wtime, 229 

mpirun, 275 

MPMD, ÆJ Multiple Program Multiple Data 

MPP, ÆW, massively parallel processor 

MTA, 22, 51 

multiplecomputer ( 多 计算 机 )，312 
definition (72%), 314 

Multiple Instruction Multiple Data (MIMD ), 9, 
314, 318, ÆJ hybrid MIMD machine ; distributed 
memory ; shared memory 
definition ( x€ X), 314 

Multiple Instruction Single Data ( 多 指令 单数 据 ， 
MISD ), 9 

Multiple Program Multiple Data ( 多 程序 多 数据 ， 
MPMD ), 212-213 
program structure ( 程序 结构 )，126 

multiple-read/single-write data ( 多 线程 读 / 单线 程 
写 数据 )，47 
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multipole algorithm/computation ( multipole 算法 / 
计算 ), BL fast multiple algorithm 
multiprocessor workstation ( 多 处 理 器 工作 站 ), 8 
multithreaded API ( 多 线程 API )，311 
multithreaded server-side application ( 多 线程 服务 
器 端 应 用 程序 )，291 
multithreading ( 多 线程 ), simultaneous ( 同步 ), 
162, 318 
mutex, ÆW, mutual exclusion 
mutual exclusion ( 互 斥 ) mutex ( 互 斥 体 )，175， 
229-237, BI Java; MPI; OpenMP 
construct (结构 ), 230 
definition (72%), 314 
implementation ( 实现 )，287 
usage ( 使 用 ), 230 


NASA (NASA), 73 


native multithreaded API (原生 多 线程 API), usage 


(用 法 )，199 
N-body problem ( N 体 问题 )，28 
nearest-neighbor algorithm ( 最 近邻 居 算 法 )，78 
nested lock ( Æi ), 177, 181 
usage ( 参见 concurrency-control protocol ) 
nested loop ( #78 ), coalescing (AFF), 154 
nested synchronized block ( ÆR] ), 190 
network (网络 )，11 
bandwidth ( 带宽 )，37，51 
infrastructure ( 基础 设施 )，11 
networked file systems ( 网 络 文件 系统 )，usage 
(使 用 )，108 
newsroom analogy for the Event-Based 
Coordination pattern ( 为 了 基于 事件 协调 模式 
的 编辑 部 类 比 )，115 
node (节点 )，12 
definition (定义 ), 314 
load ( 负载 ), 138 
number ( 数量 ), 65 
nonblocking communication ( 非 阻塞 通信 ), 90, 
284 
nonblocking I/O ( 3EBH3€ IO ), 244 
nonblocking queue ( 非 阻 塞 队 列 ), 184 
nonblocking shared queue ( 非 阻 塞 同 享 队 列 ), 187 
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noninterfering operation ( 非 干扰 操作 ), concurrency- 
control protocol, ( 并 发 控制 协议 ), 187-188 
nonlinear optimization using genetic algorithm 
(使 用 遗传 算法 的 非 线性 优化 )，Shared Data 
pattern example ( 共享 数据 示例 )，179-181 
Nonuniform Memory Access ( NUMA ) computer 
(NUMA 计算 机 ) 
definition ( x€ X ), 314 
cache-coherent NUMA ( ccNUMA ) machines 
( 缓存 一 致 的 NUMA ( ccNUMA ) 机 器 ), 309 
page-placement algorithm ( 页 面 布局 算法 )，164 
platform (平台 ), 199 
times (次 数 ), 13 
notify, inJava (Java PAY notify) 
Object class method (Object 类 方法 )，300 
replacement ( 替换 )，301 | 
notifyAll, in Java (Java PH) notifyALL ) 
addition ( 加 法 ), 186 
Object class method (Object 类 方法 ), 300 
replacement ( 替换 )，301 
nowait clause, inOpenMP ( OpenMP 中 的 nowait 
FAJ), 261-262 
null event ( 空 事 件 )，118 
NUMA, ， 参 见 Nonuniform Memory Access 
numerical integration ( 数值 积分 ) 
Loop Parallelism pattern example ( 循环 并 行 模 
式 示例 ), 152-167 
SPMD pattern example (SPMD 模式 示例 ), 
129-133 
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object-oriented design ( 面 问 对 象 的 设计 )，2 

object-oriented framework ( 面向 对 象 的 框架 )， 
107 

object-oriented programming ( OOP， 面 向 对 象 编程 ) 4 
technique ( 技术 ), 107 
usage ( 使 用 ), 107 

off-the-shelf network ( 现成 网 络 )，11 

OMP, ÆI OpenMP 

omp get num threads, 266 

omp get thread num, 266 

omp lock t, 181, 232 

OMP NUM THREADS, OpenMP environment 


x — 


variable (OpenMP 环境 变量 )，257 
one-at-a-time execution (一 次 执行 一 个 ), 
concurrency-control protocol ( 并 发 控制 协议 )，175 
one-deep divide and conquer ( one-deep 分 治 ), 77 
one-dimensional ( 1D ) block distribution, ( — 维 
分 块 分 布 )，200 
one-dimensional ( 1D ) block-cyclic distribution, 
(一 维 循环 分 块 分 布 )，200 
one-dimensional ( 1D ) differential equation, ( 一 维 
微分 方程 )，80 
one-sided communication ( 单 边 通信 ), 226 
OOP, ÆJ object-oriented programming 
opaque type ( 不 透明 类 型 )，definition ( 定义)，314 
OpenMP (OMP )，13 
API，223 | 
barrier construct (barrier 结构 )，228 
cluster ( 集群 )，15 
comparison with Java ( 与 Java FALL ), 303 
construct (结构 ), 257 
core concept ( 核心 概念 )，254-257 
critical construct ( critical 结构 )，268 
data environment clause ( 数据 环境 子 句 ), 262- 
265 
definition ( xà X. ), 314-315 
directive format, in Fortran ( Fortran 中 的 指令 
格式 )，257-259 
DO construct, in Fortran( Fortran 中 的 DO 结构 ), 
261 
fence ( Hilti} ), 222-225 
firstprivate clause ( firstprivate f"n]), 264 
flush construct ( f lush 结构 ), 223 
for construct, in C and C++ ( C 和 C++ 中 的 
for 结构 )，261 
implementation ( 实现 )，76 
implicit barrier ( 隐 式 栅栏 )，229，261 
lastprivate clause( lastprivate 4 ), 
264 
lock ( 8f ), 269 
message passing. ( 消息 传递 )，239-245 
MPI emulation ( MPI 仿真 )，239 
mutual exclusion ( 互 斥 ), 267 
NUMA (NUMA), 239 
pairwise synchronization ( 对 同步 )，181 
parallel construct ( parallel %45), 255 
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parallel for construct (parallel for 
结构 )，76 
private clause (parivate f^J), 87 
pragma format, C and C++, ( 编译 制导 格式 ， 
C 和 C++), 258 
process creation/destruction ( 进程 创建 /销毁 ), 
221 
reduction clause (reduction HJ), 246 
runtime library ( 运行 时 库 ), 265-266 
schedule clause (schedule 子 句 )，270-272 
sections construct (sections 结构 ), 262 
single construct ( single 结构 ), 262 
specification ( 规格 )，253 
structured block ( 结构 块 )，255 
synchronization ( 同步 )，266-270 
syntax (语法 ), 265 
task queue ( 任务 队列 ), 319 
thread creation/destruction ( 线程 创建 /销毁 ), 218 
worksharing construct ( 工作 共享 结构 ), 259-262 
operating system ( 操作 系统 ) 
concurrency, ÆJ parallel programs vs operating 
system concurrency 
overhead ( 开销 ), 53 
optimistic event ordering ( 乐观 事件 顺序 ), 118 
optimization ( 优化 ), 77 
OPUS system ( OPUS 系统 )，110 
OR parallelism (OR 并 行 性 )，definition ( XE X. ), 315 
Order Tasks pattern ( 顺序 任务 模式 ), 25-26, 42-44 
context ( 背景 )，42-43 
example (示例 ), 44 
in other patterns ( 其 他 模式 中 ), 45, 47, 48, 
49, 55 
problem ( 问题 )，42 
solution (解决 方案 )，43 
ordering constraint ( 排序 约束 ), 43 
organizing principle (组 织 原则 ), 60 
by data decomposition ( 通过 数据 分 解 )，61 
. linear (线性 ) 
recursive ( 递归 ), 61 
by flow of data ( 通过 流量 数据 ), 61 
irregular ( 不 规则 的 )，dynamic ( 动态 的 )，62 
regular, ( 规则 的 )，static (静态 的 )，62 
by task ( 按 任务 )，61 
linear (线性 )，61 
recursive ( 递归 )，61 
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orphan process ( 孤儿 进程 )，277 

overhead ( 开销 ), parallel (F#77), 4, 19-21 

overlapping communication and computation ( Hi # 
通信 和 计算 )，22 

owner-computes filter ( owner-computer 过 滤器 ), 138 
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page-placement algorithm ( 页 面 布局 算法 ), BU 
Nonuniform Memory Access 
first touch, 164 

pairwise synchronization, in OpenMP ( OpenMP 
中 的 对 同步 )， 参 见 OpenMP 

parallel algorithm ( 并 行 算法 )， 参 见 scalable algorithm 
constraint ( 约束 ), 59 
description ( 说明 )，73 
design (iit), 2, 20, 25, 29 
development ( 开发 )，50 
effectiveness (有效 性 ), 4, 36 
organizing principle ( 组织 原则 ), 35 

parallel architecture ( 并 行 架构 )， 人 参见 Flynn’s taxonomy, 
8-12 

parallel computation ( 并 行 计算 ), quantitative 
analysis ( 定量 分 析 )，18-21 

parallel computer ( 并 行 计算 机 )，1 
Processing Element ( 处 理 单元 ，PE )，17 

parallel computing ( 并 行 计算 ), 3, 13, 16-18 

parallel construct, in OpenMP ( OpenMP 中 
的 parallel 结构 )，255 

parallel divide-and-conquer matrix multiplication 
(平行 分 治 和 矩阵 乘法 )， 参 见 matrix multiplication, 
171 

parallel DO construct, in OpenMP ( TE OpenMP 
HAY parallel DO 结构 )，261 

parallel file system ( 并 行文 件 系 统 ),definition ( XE 
SX), 31$ | 

parallel for construct, in OpenMP ( OpenMP 
中 的 parallel for 结构 )，255 

parallel I/O ( JFfT 1/0), 15 

parallel language definition ( 并 行 语言 定义 )， 人 参见 
explicitly parallel language, implicitly parallel 
language 

parallel linear algebra library ( 并 行 线性 代数 库 )， 
参见 ScaLAPACK 


parallel loop ( 并 行 循环 )，57 

parallel Mandelbrot set generation ( 平行 Mandelbrot 
集 的 产生 ), 149, Æ Mandelbrot set 

parallel matrix multiplication ( 并 行 矩 阵 乘 法 ), & 
见 matrix multiplication, 97 

parallel mergesort, algorithm ( 并 行 归并 ， 算 法 ), 
参见 mergesort, 169 

parallel overhead ( 并 行 开 销 )，315 

parallel pipeline ( 并 行 流水 线 )，111 

parallel program performance ( 并 行程 序 性 能 )， 
18-22 | 

parallel programming ( 并 行 编程 )，3-4 
background ( #7), 7 
challenge ( PEAK), 3 
environment ( #4), 2, 12-16 
pattern languages ( 模式 语言 ),usage ( 使 用 ), 4-5 
support ( 3x $$), 15 

parallel program vs operating system concurrency 
(并 行程 序 与 操作 系统 并 发 性 )，7-8 

parallel region, in OpenMP ( OpenMP 中 的 并 行 
Kik), 76, 168, 169, 253 

Parallel Telemetry Processor ( 并 行 遥 测 处 理 器 ， 
PTEP )，73 

Parallel Virtual Machine ( 并 行 虚拟 机 ，PVM ) 
capability (能 力 ), 220 
definition ( 定义 ), 316 
program ( 程序 )，129 

parallelism ( 并 行 性 )， 参 见 AND parallelism, 
fine-grained parallelism, incremental parallelism, 
loop-based parallelism, OR parallelism 
definition (72% ), 315 
strategy ( 策略 )，246 

Parlog, 14 

parsing ( 解析 ), Recursive Data pattern example ( 递 
归 数 据 模式 示例 )，101-102 

Partitioned Global Address Space Model ( 划分 全 
局 地 址 空间 模型 )，252 

pattern language ( 模式 语言 ) 
concept ( 概念 )，2 
usage ( 用 法 )，3-4 

Pattern Language of Program ( 程序 的 模式 语言 ， 
PLoP ), 4-5 

pattern ( 模式 ) 
Chain of Responsibility ( 责任 链 )，113 


x 4l 


decomposition ( 分 解 ), using (使 用 )，25 
dependency analysis ( 依赖 性 分 析 ), 25 
Facade, (门面 )，116 
format (格式 ), 4 
Pipe and Filter, ( 流水 线 和 过 滤器 ), 112 
program structuring ( 程序 结构 )，6，69 
representing data structure ( 表示 数据 结构 )，123 
Visitor ( 访客 ), 4 
PE， 人 参见 processing element 
peer-to-peer computing ( walit. ), definition 
(定义 )，315 
perfect linear speedup ( 完美 的 线性 加 速 )，19 
performance ( 性 能 ) 
analysis tool ( 分 析 工 具 ), 153 
bottleneck ( 瓶颈 ), elimination ( 消除 ), 153, 
175 
goal ( 目标 )，8 
problem (问题 ), 183, 187 
persistent communication ( 持续 通信 ), 286 
PET, ÆJ Positron Emission Tomography 
PETsc, ÆJ Portable Extensible Toolkit for Scien- 
tific Computing 
pipeline ( 流水 线 )， 参 见 parallel pipeline 
algorithm ( 算法 )，40，103 
assembly-line analogy (类 比 流水 作业 )，104 
computation ( 计算 )，55 
draining ( 排 空 )，105 
example ( 示例 )，three-stage pipeline ( 三 级 流 
水 线 )，104 
element ( 元 素 ), data flow ( representation ) ( 数 
据 流 (表示 )), 107-108 
filling (填充 )，105 
stage (级 )，105 
defining (定义 )，106-107 
usage ( 使用)，110-112 
Pipeline pattern ( 流水 线 模式 ), 58, 60-62, 103-104 
computation ( 计算 ), structuring (结构 ), 107 
context (#73), 103 
examples (示例 ), 109-112 
force ( 面临 的 问题 )，104 
in other patterns ( 其 他 模式 中 )，40，55，64， 
115, 120, 125, ‘291 
problem ( 问题 )，103 
related patterns ( 相关 模式 )，112-114 
solution ( 解决 方案 )，104-109 
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Pipes and Filters pattern ( fit7kZAe Aye ARIN )， 
112-114 | 

pipe, in UNIX ( UNIX 中 的 流水 线 ), 104-109 

Pixar ( 皮克斯 )，1 

PLAPACK, 39, 211, 215 

PLoP， 参 见 Pattern Languages of Programs 

point-to-point message passing ( 点 对 点 的 消息 传 
递 )，277-279，284-288 

pointer jumping ( 指针 跳跃 )，145 

poison pill, 294 

POOMA, 215 

Portable Extensible Toolkit for Scientific Computing 
(PETsc， 科 学 计算 的 便携 式 可 扩展 工具 包 )，215 

Portable Operating System Interface (POSIX, 可 
移植 操作 系统 接口 ) 
definition ( x£ X. ), 315 
thread (线程 ，Pthread ), 185 

definition (定义 ), 316 

Positron Emission Tomography ( 正 电 子 发 射 断 层 
ti, PET), 26 

POSIX, ÆJ Portable Operating System Interface 

post Hartree Fock algorithm ( 后 Hartree Fock 算法 ), 
211 

pragma, £l, OpenMP 

precedence graph ( 优先 级 图 ), definition ( 定义 ), 
315 

preconfigured cluster ( 预 配置 集群 )，12 

prefix scan ( Ài 4% 44 fi ), Recursive Data pattern 
example ( 递归 数据 模式 示例 )，101 

private clause, in OpenMP (OpenMP 中 的 private 
FAJ), 263 

private variable ( 私有 变量 )，263 

problem solving environment ( 解决 问题 的 环境 ), 
211, 215 

process group, in MPI ( MPI 中 的 进程 组 )，274 

process migration ( 进程 迁移 )，315 

process ( 进程 )，16 
creation/destruction ( 创建 /销毁 )，220-221， 参 

见 Java, MPI, task queue; OpenMP 

definition (定义 ), 315 
ID, 122 
lightweight ( 轻 量 级 ), Bl thread 
migration ( EX ), definition ( 定义 ), 315 

processing element ( PE， 处 理 单元 )，17，31-32，52 
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-availability ( 可 用 性 ), 50-51 

data structure ( 数据 结构 ), sharing (共享 )，51 
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program structuring pattern ( 程序 结构 模式 ), 122- 
123 

program transformation ( 程序 变换 ) 
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radar ( 雷达 )，111 
rank, in MPI ( MPI 中 的 秩 ), 128, 138, 282 
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solution ( 解决 方案 ), 99-101 
structure ( 结构 ), 100 
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recursive parallel decomposition ( 递归 并 行 分 解 ), 195 
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BR), 232. 

runtime schedule, in OpenMP ( OpenMP 中 的 运 和 
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schedule (static), 271 
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ratio telescope data ( 比率 望远镜 数据 ), 151 
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transformation ( 变换 ), 135 
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shared data ( 共享 数据 )， 人 参见 read-only shared data, 
read-write shared data 
accumulation ( 累加 ), 47 
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read-only ( 只 读 )，46 
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examples (示例 ), 179-181 
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in other patterns ( 其 他 模式 中 ), 68, 77, 154, 
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problem ( 问题 )，173 
related pattern ( 相关 模式 )，182 
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solution ( 解决 方案 )，174-178 
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API, 232 
computer ( 计算 机 ), 164 
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environment ( HE), 32, 37 
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model ( 模型 )，15 
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support ( xx $$), 125 
system ( 系统 ), 31 
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queue 
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architecture ( 构架 ), 319 
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platform (平台 ), 100-101 
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Single Program Multiple Data 
algorithm (SPMD 算法 )，129 
approach (方法 ), 127 
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SPMD Pattern ( SPMP 模式 ), 122-123, 125, 
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definition (定义 ), 318 
maximum ( 最 大 ), 307 
spin lock ( 自 旋 锁 ), 241 
SPMD, ÆJ Single Program Multiple Data 
square chunk decomposition ( 方块 分 解 )，82 
SSF, ÆW, Scalable Simulation Framework 
standard communication mode, in MPI ( MPI 标准 
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STAR, ÆW Space-Time Adaptive Processing 
static schedule ( 静态 调度 ), 68-69, 271 
status variable, in MPI ( MPI 中 的 状态 变量 )，278 
Steele, Guy, 101 
stride ( 内存 跨度 )，95 
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structured block ( 结构 化 块 ) 
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in OpenMP ( OpenMP 中 ), 218 
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suitability for target platform ( 目标 平台 适应 性 ), 
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